در زبان فارسی کلمات دارای صورتهای نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاحنامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاحنامه که از نظامی ساختارمند برخوردار است میتوان شبکه کلمات کلیدی، شامل کلمات هم ارز، کلمات سلسله مراتبی و وابسته را تکمیل کرده و افزایش داد. بنابراین میتوان توافق بین جستجوی کاربران و کلمات کلیدی متنی را بیشتر نمود و جامعیت جستجو را افزایش داد. در مرحله اول کلمات غیر مهم و عمومی حذف میشوند. سپس کلمات متن ریشهیابی میشوند و در ادامه برای مشخص شدن اهمیت نسبی کلمات با استفاده از روشهای وزندهی یک وزن عددی به هر کلمه منسوب میگردد که بیانگر میزان تاثیر کلمه در ارتباط با موضوع متن و درمقایسه با سایر کلمات بکار رفته در متن است. مجموعه عملیات فوق خصوصاً استفاده از اصطلاحنامه باعث میشود که دستهبندی متون دقیقتر انجام گیرد و به نوعی رده علمی سلسله مراتبی متون در حوزه بازیابی اطلاعات نیز مشخص میشود. نتایج آزمایشها روی چندین متن در موضوعات مختلف نشان دهنده دقت و توانایی روش پیشنهادی در استخراج کلمات کلیدی منطبق با خواست کاربر است و در نتیجه خوشهبندی دقیقتر متون میباشد.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |