دوره 12، شماره 2 - ( 6-1394 )                   جلد 12 شماره 2 صفحات 72-55 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

rahimi Z, samani M H, khadivi S. Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system. JSDP 2015; 12 (2) :55-72
URL: http://jsdp.rcisp.ac.ir/article-1-190-fa.html
رحیمی زینب، ثمنی محمدحسین، خدیوی شهرام. استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی . پردازش علائم و داده‌ها. 1394; 12 (2) :55-72

URL: http://jsdp.rcisp.ac.ir/article-1-190-fa.html


پژوهشکده پردازش هوشمند علائم
چکیده:   (6578 مشاهده)
امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشم‌گیری افزایش یافته است. یکی از مطرح‌ترین روش‌های ترجمه ماشینی، روش‌ آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده می‌شود؛ اما در برخی زبان‌ها هنوز مسئله نیاز پایه‌ای سیستم ترجمه ماشینی آماری یعنی پیکره‌های متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی برای بهبود کیفیت پیکره‌های مستخرج از اسناد قابل مقایسه و در نتیجه بهبود کیفیت سیستم ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه داده‌های موازی نه به صورت جمله، بلکه به صورت قطعات زیرجمله‌ای ظاهر می‌شوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعه‌ای از ویژگی‌ها دارد که این ویژگی‌ها عبارت‌اند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیل‌دهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابی‌های انجام شده روش پیشنهادی دارای کارایی مناسبی است و علاوه بر اینکه از نظر دقت و بازخوانی از روش‌های موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی بخشی از پیکره قابل مقایسه موجود، کارایی سیستم ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 0.33 تا 1.4 واحد بلو افزایش داده است.
متن کامل [PDF 3675 kb]   (1652 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1392/9/21 | پذیرش: 1393/6/3 | انتشار: 1394/7/8 | انتشار الکترونیک: 1394/7/8

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.