دوره 8، شماره 1 - ( 6-1390 )                   جلد 8 شماره 1 صفحات 24-17 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Faili H. Using Persian Stemmer in Information Retrieval System. JSDP 2011; 8 (1) :17-24
URL: http://jsdp.rcisp.ac.ir/article-1-713-fa.html
احسان نوا، فیلی هشام. بررسی تأثیرات ریشه‌یابی در بازیابی اطلاعات در زبان فارسی. پردازش علائم و داده‌ها. 1390; 8 (1) :17-24

URL: http://jsdp.rcisp.ac.ir/article-1-713-fa.html


چکیده:   (4092 مشاهده)

یکی از مهمترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات یافتن ریشه کلمات می‌باشد. ریشه کلمه جزئی از کلمه است که پس از حذف وندهای کلمه (پیشوند، پسوند و میانوند) باقی می‌ماند. یکی از روش¬های افزایش کارایی سیستم‌های بازیابی اطلاعات استفاده از ریشه‌یابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه تبدیل می¬شوند. در نتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش می‌یابد. در این مقاله الگوریتمی برای بدست آوردن ریشه کلمات در زبان فارسی ارائه شده است و سپس نتیجه آن در بازیابی اطلاعات با الگوریتم‌های متفاوت رتبه‌بندی مورد ارزیابی قرار گرفته است. الگوریتم ارائه شده با استفاده از قواعد ساختواژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشه‌های نادرست به ریشه‌یابی کلمات می‌پردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوریتم ارائه شده اندازه ساختار ایندکس 5 درصد کاهش یافته است و همچنین میزان میانگین متوسط دقت (mean average precision) در سیستم بازیابی اطلاعات حدود 5 درصد افزایش یافته است.

متن کامل [PDF 3264 kb]   (1014 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش گفتار
دریافت: 1390/6/31 | پذیرش: 1396/11/30 | انتشار: 1396/11/30 | انتشار الکترونیک: 1396/11/30

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.