در عصر فناوری، روزانه حجم زیادی از سندهای الکترونیکی تولید میشود. از آنجا که این سندها توسط افراد مختلف تولید میشود دارای خطاهایی هستند. وجود خطاها باعث کاهش کیفیت سندها میشود، بنابراین وجود ابزارهای خطایاب باعث افزایش کیفیت میشود. یکی از انواع خطاها، خطای معنایی حساس به متن است. همانطور که از نام این آن برمیآید، برای تشخیص و تصحیح آن، نیاز به تحلیل اطلاعات موجود در متن است. در این مقاله، یک رتبهبند متمایزگر مستقل از زبان برای خطایابهای معنایی حساس به متن ارائه دادیم و از اطلاعات کل متن برای رتبهبندی استفاده کردیم. این رتبهبندی توسط ویژگیهای حساس به متن و یک مدل لگاریتم خطی انجام شده است. برای ارزیابی روش، از دو روش مبنای مختلف که یکی بر اساس مترجم ماشینی آماری و دیگری بر اساس مدل زبانی است استفاده کردهایم. به منظور ارزیابی سیستم از دو دادهی آزمون مختلف در زبان فارسی استفاده شده است. این روش باعث بهبود 17% در بازخوانی تشخیص و تصحیح نسبت به روش مبنای مترجم ماشینی آماری شده است.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |