URL: http://jsdp.rcisp.ac.ir/article-1-713-fa.html
یکی از مهمترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات یافتن ریشه کلمات میباشد. ریشه کلمه جزئی از کلمه است که پس از حذف وندهای کلمه (پیشوند، پسوند و میانوند) باقی میماند. یکی از روش¬های افزایش کارایی سیستمهای بازیابی اطلاعات استفاده از ریشهیابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه تبدیل می¬شوند. در نتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش مییابد. در این مقاله الگوریتمی برای بدست آوردن ریشه کلمات در زبان فارسی ارائه شده است و سپس نتیجه آن در بازیابی اطلاعات با الگوریتمهای متفاوت رتبهبندی مورد ارزیابی قرار گرفته است. الگوریتم ارائه شده با استفاده از قواعد ساختواژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشههای نادرست به ریشهیابی کلمات میپردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوریتم ارائه شده اندازه ساختار ایندکس 5 درصد کاهش یافته است و همچنین میزان میانگین متوسط دقت (mean average precision) در سیستم بازیابی اطلاعات حدود 5 درصد افزایش یافته است.