پژوهشگاه ارتباطات و فناوری اطلاعات
چکیده: (1247 مشاهده)
متون نگاشتهشده فارسی بهطورمعمول دو مشکل ساده، ولی مهم دارند. مشکل نخست واژههای چندواحدی هستند که از اتصال یک واژه به واژههای بعدی حاصل میشوند. مشکل دیگر واحدهای چندواژهای هستند که از جداشدگی واژههایی که با هم یک واحد واژگانی را تشکیل میدهند، حاصل میشوند. ابزار واحدساز در زبان فارسی که بهعنوان یکی از ابزارهای پیشپردازش زبان است، کاربرد فراوانی در تجزیه و تحلیل متون داشته و باید بتواند واحدهای واژگانی را تشخیص دهد. به عبارتی، این ابزار، مرکز کلمات را در متون تشخیص داده و آن را به دنبالهای از کلمات بهمنظور تحلیلهای بعدی تبدیل میکند. تنوع در رسمالخط فارسی و عدم رعایت قوانین جدانویسی و پیوستهنویسی کلمات از یکسو و پیچیدگیهای واژگانی زبان فارسی از سویی دیگر فرایندهای مختلف پردازشی زبان از جمله واحدسازی را با چالشهای بسیاری روبهرو میکند؛ لذا برای عملکرد بهینه این ابزار، لازم است ابتدا ملاحظات زبانشناسی رایانشی واحدسازی در زبان فارسی مشخص و سپس بر اساس این ملاحظات مجموعهدادهای برای آموزش و آزمایش آن فراهم شد. در این مقاله سعی شد ضمن تبیین ملاحظات یادشده، به تهیه پیکرهای در این خصوص بپردازیم. پیکره تهیهشده شامل 183/21 کلمه و متوسط طول جملات 28/40 است.
شمارهی مقاله: 12
نوع مطالعه:
كاربردي |
موضوع مقاله:
مقالات پردازش متن دریافت: 1399/5/29 | پذیرش: 1400/10/18 | انتشار: 1401/10/4 | انتشار الکترونیک: 1401/10/4