دوره 13، شماره 1 - ( 3-1395 )                   جلد 13 شماره 1 صفحات 100-87 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Improved Clustering Persian Text Based on Keyword Using Linguistic and Thesaurus Knowledge . JSDP 2016; 13 (1) :87-100
URL: http://jsdp.rcisp.ac.ir/article-1-139-fa.html
پروین حمید. ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون . پردازش علائم و داده‌ها. 1395; 13 (1) :87-100

URL: http://jsdp.rcisp.ac.ir/article-1-139-fa.html


دانشگاه آزاد اسلامی،
چکیده:   (7012 مشاهده)

در زبان فارسی کلمات دارای صورت‌های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح‌نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح‌نامه که از نظامی ساختارمند برخوردار است می‌توان شبکه کلمات کلیدی، شامل کلمات هم ارز، کلمات سلسله مراتبی و وا‌بسته را تکمیل کرده و افزایش داد. بنابراین می‌توان توافق بین جستجوی کاربران و کلمات کلیدی متنی را بیشتر نمود و جامعیت جستجو را افزایش داد. در مرحله اول کلمات غیر مهم و عمومی حذف می‌شوند. سپس کلمات متن ریشه‌یابی می‌شوند و در ادامه برای مشخص شدن اهمیت نسبی کلمات با استفاده از روش‌های وزن‌دهی یک وزن عددی به هر کلمه منسوب می‌گردد که بیانگر میزان تاثیر کلمه در ارتباط با موضوع متن و درمقایسه با سایر کلمات بکار رفته در متن است‌. مجموعه عملیات فوق خصوصاً استفاده از اصطلاح‌نامه باعث می‌شود که دسته‌بندی متون دقیق‌تر انجام گیرد و به نوعی رده علمی سلسله مراتبی متون در حوزه بازیابی اطلاعات نیز مشخص می‌شود. نتایج آزمایش‌ها روی چندین متن در موضوعات مختلف نشان دهنده دقت و توانایی روش پیشنهادی در استخراج کلمات کلیدی منطبق با خواست کاربر است و در نتیجه خوشه‌بندی دقیق‌تر متون می‌باشد.

متن کامل [PDF 2075 kb]   (2838 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1392/4/12 | پذیرش: 1395/2/13 | انتشار: 1395/4/2 | انتشار الکترونیک: 1395/4/2

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.