دوره 14، شماره 2 - ( 6-1396 )                   جلد 14 شماره 2 صفحات 3-24 | برگشت به فهرست نسخه ها
استادیار دانشگاه خلیج فارس بوشهر
چکیده:   (386 مشاهده)

پیوسته‌بودن کلمات فارسی و وجود تنوع بسیار زیاد رسم‌الخط این زبان و همچنین شکل‌های متنوع حروف فارسی بسته به محل قرارگیری‌شان در کلمه، تشخیص دست‌نوشته‌های فارسی را به چالش کشانده‌اند. مهم‌ترین اشکال در اغلب روش‌های بازشناسی بی‌توجهی به بافت جمله است که باعث می‌شود در مواردی که کلمه ورودی اشتباه بازشناسی می‌شود، واژه‌ای با ظاهر درست در جمله‌ای نابه‌جا به کار رود. طراحی مدلی که بتواند بافت جمله را به‌خوبی تحلیل کند، مستلزم در‌اختیار‌داشتن منابع زبانی حجیمی است که نمایندۀ خوبی از زبان مورد بازشناسی باشند. در این مقاله روش جدیدی برای بازشناسی کلمات برخط فارسی ارائه شده است که با استفاده از بافت جمله سعی در بهبود بازشناسی دارد. فرآیند بازشناسی معرفی‌شده در این نوشتار به این صورت است که ابتدا علائم و بدنه زیرکلمات دست‌نوشته ورودی تفکیک شده و بدنه هر زیرکلمه و علائم آن مشخص می‌شود؛ سپس علائم زیرکلمات تشخیص داده‌شده و بر اساس آن مجموعه‌ای از واژگان به‌عنوان فرضیه در نظر گرفته می‌شوند؛ به هر فرضیه بر اساس میزان شباهت آن به دست‌نوشته ورودی امتیازی تعلق می‌گیرد و بر اساس امتیاز حاصله محتمل‌ترین فرضیات مشخص می‌شوند. سپس این رویه توسط مدل زبانی برای یافتن فرضیات محتمل‌تر، هدایت می‌شود. نتایج آزمایش‌های به‌عمل‌آمده نشان می‌دهد که کاهش قابل توجهی در نرخ خطای بازشناسی کلمات حاصل شده و کاربر در نگارش ملزم به رعایت محدودیت‌های کمتری است. از طرفی روش پیشنهادی می‌تواند نسبت به روش‌های قبلی با در‌اختیار‌داشتن یک پایگاه داده دست‌نویس محدود، صحت مطلوب‌تری ارائه کند. با به‌کارگیری روش ارائه‌شده، دقت بازشناسی در مرحلۀ‌ اولیه در سطح حروف 9/95% و پس از بازشناسی به‌کمک مدل زبانی دقت بازشناسی به 3/99% ارتقا یافت. برای بهبود عملکرد الگوریتم، استفاده از الگوریتم یادگیری تقویتی برای تطبیق پذیری الگوریتم با نویسنده به‌عنوان کار آینده پیشنهاد می‌شود.
 

متن کامل [PDF 8742 kb]   (213 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: ۱۳۹۴/۷/۴ | پذیرش: ۱۳۹۵/۸/۱۶ | انتشار: ۱۳۹۶/۷/۲۹ | انتشار الکترونیک: ۱۳۹۶/۷/۲۹