دوره 19، شماره 3 - ( 9-1401 )                   جلد 19 شماره 3 صفحات 188-175 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Farhoodi M, Mahmoudi M, Davoudi M. Producing a Persian Text Tokenizer Corpus Focusing on Its Computational Linguistics Considerations. JSDP 2022; 19 (3) :175-188
URL: http://jsdp.rcisp.ac.ir/article-1-1169-fa.html
فرهودی مژگان، محمودی مریم، داودی شمسی مونا. تولید پیکره برچسب‌خورده واحدساز زبان فارسی با درنظر‌گرفتن ملاحظات زبان‌شناسی رایانشی آن. پردازش علائم و داده‌ها 1401; 19 (3) :188-175

URL: http://jsdp.rcisp.ac.ir/article-1-1169-fa.html


پژوهشگاه ارتباطات و فناوری اطلاعات
چکیده:   (76 مشاهده)
متون نگاشته‌شده فارسی به‌طورمعمول دو مشکل ساده، ولی مهم دارند. مشکل نخست واژه‌های چندواحدی هستند که از اتصال یک واژه به واژه­‌های بعدی حاصل می­شوند. مشکل دیگر واحدهای چندواژه­ای هستند که از جداشدگی واژه‌­هایی که با هم یک واحد واژگانی را تشکیل می‌­دهند، حاصل می‌شوند. ابزار واحدساز در زبان فارسی که به‌عنوان یکی از ابزارهای پیش‌­پردازش زبان است، کاربرد فراوانی در تجزیه و تحلیل متون داشته و باید بتواند واحدهای واژگانی را تشخیص دهد. به عبارتی، این ابزار، مرکز کلمات را در متون تشخیص داده و آن را به دنباله­‌ای از کلمات به‌منظور تحلیل­‌های بعدی تبدیل می‌­کند. تنوع در رسم‎‌الخط فارسی و عدم رعایت قوانین جدانویسی و پیوسته‌نویسی کلمات از یک‌سو و پیچیدگی‌های واژگانی زبان فارسی از سویی دیگر فرایندهای مختلف پردازشی زبان از جمله واحدسازی را با چالش‌‌های بسیاری روبه‌رو می‌کند؛ لذا برای عملکرد بهینه این ابزار، لازم است ابتدا ملاحظات زبان‌شناسی رایانشی واحدسازی در زبان فارسی مشخص و سپس بر اساس این ملاحظات مجموعه‌داده­ای برای آموزش و آزمایش آن فراهم شد. در این مقاله سعی شد ضمن تبیین ملاحظات یاد‌شده، به تهیه پیکره­ای در این خصوص بپردازیم. پیکره تهیه‌شده شامل 183/21 کلمه و متوسط طول جملات 28/40 است.
شماره‌ی مقاله: 12
متن کامل [PDF 860 kb]   (48 دریافت)    
نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1399/5/29 | پذیرش: 1400/10/18 | انتشار: 1401/10/4 | انتشار الکترونیک: 1401/10/4

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.