تولید پیکره برچسب‌خورده واحدساز زبان فارسی با درنظر‌گرفتن ملاحظات زبان‌شناسی رایانشی آن

فرهودی, مژگان; محمودی, مریم; داودی شمسی, مونا

doi:10.52547/jsdp.19.3.175

***************«بسم الله الرحمن الرحیم» نشریه علمی «پردازش علائم و داده‌ها» با مجوز رسمی از کمیسیون نشریات وزارت علوم، تحقیقات و فناوری، صاحب امتیاز: پژوهشگاه توسعه فناوری‌های پیشرفته ***************

Signal and Data Processing Journal A scientific journal officially licensed by the Commission for Scientific Publications of the (MSRT). Publisher: Research Ceter for Developmen of Technologies

EN FA

دوره 19، شماره 3 - ( 9-1401 ) جلد 19 شماره 3 صفحات 188-175 | برگشت به فهرست نسخه ها

‎ 10.52547/jsdp.19.3.175

Mendeley

Zotero

RefWorks

Farhoodi M, Mahmoudi M, Davoudi M. Producing a Persian Text Tokenizer Corpus Focusing on Its Computational Linguistics Considerations. JSDP 2022; 19 (3) : 12
URL: http://jsdp.rcisp.ac.ir/article-1-1169-fa.html

فرهودی مژگان، محمودی مریم، داودی شمسی مونا. تولید پیکره برچسب‌خورده واحدساز زبان فارسی با درنظر‌گرفتن ملاحظات زبان‌شناسی رایانشی آن. پردازش علائم و داده‌ها. 1401; 19 (3) :175-188

URL: http://jsdp.rcisp.ac.ir/article-1-1169-fa.html

تولید پیکره برچسب‌خورده واحدساز زبان فارسی با درنظر‌گرفتن ملاحظات زبان‌شناسی رایانشی آن

مژگان فرهودی^*

، مریم محمودی

، مونا داودی شمسی

پژوهشگاه ارتباطات و فناوری اطلاعات

چکیده: (2610 مشاهده)

متون نگاشته‌شده فارسی به‌طورمعمول دو مشکل ساده، ولی مهم دارند. مشکل نخست واژه‌های چندواحدی هستند که از اتصال یک واژه به واژه‌های بعدی حاصل میشوند. مشکل دیگر واحدهای چندواژهای هستند که از جداشدگی واژه‌هایی که با هم یک واحد واژگانی را تشکیل می‌دهند، حاصل می‌شوند. ابزار واحدساز در زبان فارسی که به‌عنوان یکی از ابزارهای پیش‌پردازش زبان است، کاربرد فراوانی در تجزیه و تحلیل متون داشته و باید بتواند واحدهای واژگانی را تشخیص دهد. به عبارتی، این ابزار، مرکز کلمات را در متون تشخیص داده و آن را به دنباله‌ای از کلمات به‌منظور تحلیل‌های بعدی تبدیل می‌کند. تنوع در رسم‎‌الخط فارسی و عدم رعایت قوانین جدانویسی و پیوسته‌نویسی کلمات از یک‌سو و پیچیدگی‌های واژگانی زبان فارسی از سویی دیگر فرایندهای مختلف پردازشی زبان از جمله واحدسازی را با چالش‌‌های بسیاری روبه‌رو می‌کند؛ لذا برای عملکرد بهینه این ابزار، لازم است ابتدا ملاحظات زبان‌شناسی رایانشی واحدسازی در زبان فارسی مشخص و سپس بر اساس این ملاحظات مجموعه‌دادهای برای آموزش و آزمایش آن فراهم شد. در این مقاله سعی شد ضمن تبیین ملاحظات یاد‌شده، به تهیه پیکرهای در این خصوص بپردازیم. پیکره تهیه‌شده شامل 183/21 کلمه و متوسط طول جملات 28/40 است.

شماره‌ی مقاله: 12

واژه‌های کلیدی: پیکره واحدساز زبان فارسی، پردازش زبان فارسی، زبان‌شناسی رایانشی

متن کامل [PDF 860 kb] (1773 دریافت)

نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1399/5/29 | پذیرش: 1400/10/18 | انتشار: 1401/10/4 | انتشار الکترونیک: 1401/10/4

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.