rahimi Z, samani M H, khadivi S. Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system. JSDP 2015; 12 (2) :55-72
URL:
http://jsdp.rcisp.ac.ir/article-1-190-fa.html
رحیمی زینب، ثمنی محمدحسین، خدیوی شهرام. استخراج پیکره موازی از اسناد قابلمقایسه برای بهبود کیفیت ترجمه در سیستمهای ترجمه ماشینی . پردازش علائم و دادهها. 1394; 12 (2) :55-72
URL: http://jsdp.rcisp.ac.ir/article-1-190-fa.html
پژوهشکده پردازش هوشمند علائم
چکیده: (6945 مشاهده)
امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشمگیری افزایش یافته است. یکی از مطرحترین روشهای ترجمه ماشینی، روش آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده میشود؛ اما در برخی زبانها هنوز مسئله نیاز پایهای سیستم ترجمه ماشینی آماری یعنی پیکرههای متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی برای بهبود کیفیت پیکرههای مستخرج از اسناد قابل مقایسه و در نتیجه بهبود کیفیت سیستم ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه دادههای موازی نه به صورت جمله، بلکه به صورت قطعات زیرجملهای ظاهر میشوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعهای از ویژگیها دارد که این ویژگیها عبارتاند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیلدهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابیهای انجام شده روش پیشنهادی دارای کارایی مناسبی است و علاوه بر اینکه از نظر دقت و بازخوانی از روشهای موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی بخشی از پیکره قابل مقایسه موجود، کارایی سیستم ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 0.33 تا 1.4 واحد بلو افزایش داده است.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
مقالات پردازش متن دریافت: 1392/9/21 | پذیرش: 1393/6/3 | انتشار: 1394/7/8 | انتشار الکترونیک: 1394/7/8