Signal and Data Processing

fa استخراج پیکره‌ موازی از اسناد قابل‌مقایسه برای بهبود کیفیت ترجمه در سیستم‌های ترجمه ماشینی Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system مقالات پردازش متن Paper پژوهشي Research امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشم‌گیری افزایش یافته است. یکی از مطرح‌ترین روش‌های ترجمه ماشینی، روش‌ آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده می‌شود؛ اما در برخی زبان‌ها هنوز مسئله نیاز پایه‌ای سیستم ترجمه ماشینی آماری یعنی پیکره‌های متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی برای بهبود کیفیت پیکره‌های مستخرج از اسناد قابل مقایسه و در نتیجه بهبود کیفیت سیستم ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه داده‌های موازی نه به صورت جمله، بلکه به صورت قطعات زیرجمله‌ای ظاهر می‌شوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعه‌ای از ویژگی‌ها دارد که این ویژگی‌ها عبارت‌اند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیل‌دهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابی‌های انجام شده روش پیشنهادی دارای کارایی مناسبی است و علاوه بر اینکه از نظر دقت و بازخوانی از روش‌های موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی بخشی از پیکره قابل مقایسه موجود، کارایی سیستم ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 0.33 تا 1.4 واحد بلو افزایش داده است. Data used for training statistical machine translation method are usually prepared from three resources: parallel, non-parallel and comparable text corpora. Parallel corpora are an ideal resource for translation but due to lack of these kinds of texts, non-parallel and comparable corpora are used either for parallel text extraction. Most of existing methods for exploiting comparable corpora look for parallel data at the sentence level. However, we believe that very non-parallel corpora have none or few good sentence pairs most of their parallel data exists at the sub-sentential level. The base system is Manteanu 2006 fragment extraction system implemented in C# and the proposed system is implemented based on extracting fragment blocks from input related sentences using score calculated from special features such as fragment length, LLR score, relevance path specification in the block and translation coverage percent. Evaluations indicates that proposed method outperforms the base system and the improved base system. پیکره قابل مقایسه, استخراج قطعات موازی, پیکره موازی, ترجمه ماشینی Comparable Corpora, Fragment Extraction, Parallel Corpora, Machine Translation 55 72 http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-450-1&slc_lang=fa&sid=1 zeinab rahimi زینب رحیمی rahimi.zeinab@gmail.com 10031947532846001935 10031947532846001935 Yes RCISP پژوهشکده پردازش هوشمند علائم mohammad hossein samani محمدحسین ثمنی mhsamani@gmail.com 10031947532846001936 10031947532846001936 No RCISP پژوهشکده پردازش هوشمند علائم shahram khadivi شهرام خدیوی khadivi@aut.ac.ir 10031947532846001937 10031947532846001937 No amirkabir univercity of technology, department of computer engineerin دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر