استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی

رحیمی, زینب; ثمنی, محمدحسین; خدیوی, شهرام

***************«بسم الله الرحمن الرحیم» نشریه علمی «پردازش علائم و داده‌ها» با مجوز رسمی از کمیسیون نشریات وزارت علوم، تحقیقات و فناوری، صاحب امتیاز: پژوهشگاه توسعه فناوری‌های پیشرفته ***************

Signal and Data Processing Journal A scientific journal officially licensed by the Commission for Scientific Publications of the (MSRT). Publisher: Research Ceter for Developmen of Technologies

EN FA

دوره 12، شماره 2 - ( 6-1394 ) جلد 12 شماره 2 صفحات 72-55 | برگشت به فهرست نسخه ها

Mendeley

Zotero

RefWorks

rahimi Z, samani M H, khadivi S. Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system. JSDP 2015; 12 (2) :55-72
URL: http://jsdp.rcisp.ac.ir/article-1-190-fa.html

رحیمی زینب، ثمنی محمدحسین، خدیوی شهرام. استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی . پردازش علائم و داده‌ها. 1394; 12 (2) :55-72

URL: http://jsdp.rcisp.ac.ir/article-1-190-fa.html

استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی

زینب رحیمی^*

، محمدحسین ثمنی

، شهرام خدیوی

پژوهشکده پردازش هوشمند علائم

چکیده: (8054 مشاهده)

امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشم‌گیری افزایش یافته است. یکی از مطرح‌ترین روش‌های ترجمه ماشینی، روش‌ آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده می‌شود؛ اما در برخی زبان‌ها هنوز مسئله نیاز پایه‌ای سیستم ترجمه ماشینی آماری یعنی پیکره‌های متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی برای بهبود کیفیت پیکره‌های مستخرج از اسناد قابل مقایسه و در نتیجه بهبود کیفیت سیستم ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه داده‌های موازی نه به صورت جمله، بلکه به صورت قطعات زیرجمله‌ای ظاهر می‌شوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعه‌ای از ویژگی‌ها دارد که این ویژگی‌ها عبارت‌اند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیل‌دهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابی‌های انجام شده روش پیشنهادی دارای کارایی مناسبی است و علاوه بر اینکه از نظر دقت و بازخوانی از روش‌های موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی بخشی از پیکره قابل مقایسه موجود، کارایی سیستم ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 0.33 تا 1.4 واحد بلو افزایش داده است.

واژه‌های کلیدی: پیکره قابل مقایسه، استخراج قطعات موازی، پیکره موازی، ترجمه ماشینی

متن کامل [PDF 3675 kb] (2564 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1392/9/21 | پذیرش: 1393/6/3 | انتشار: 1394/7/8 | انتشار الکترونیک: 1394/7/8

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.