خوشه‌بندی فراابتکاری اسناد فارسی اِکس‌اِم‌اِل مبتنی بر شباهت ساختاری و محتوایی

مرادی, علی; شاه بهرامی, اسدالله; ابراهیمی آتانی, رضا; علیدوست نیا, مهران

***************«بسم الله الرحمن الرحیم» نشریه علمی «پردازش علائم و داده‌ها» با مجوز رسمی از کمیسیون نشریات وزارت علوم، تحقیقات و فناوری، صاحب امتیاز: پژوهشگاه توسعه فناوری‌های پیشرفته ***************

Signal and Data Processing Journal A scientific journal officially licensed by the Commission for Scientific Publications of the (MSRT). Publisher: Research Ceter for Developmen of Technologies

EN FA

دوره 13، شماره 2 - ( 6-1395 ) جلد 13 شماره 2 صفحات 23-11 | برگشت به فهرست نسخه ها

Mendeley

Zotero

RefWorks

Moradi A, Shahbahrami A, Ebrahimi Atani R, Alidoust Nia M. Persian XML Documents Metaheuristic Clustering Based on Structure and Content Similarity. JSDP 2016; 13 (2) :11-23
URL: http://jsdp.rcisp.ac.ir/article-1-29-fa.html

مرادی علی، شاه بهرامی اسدالله، ابراهیمی آتانی رضا، علیدوست نیا مهران. خوشه‌بندی فراابتکاری اسناد فارسی اِکس‌اِم‌اِل مبتنی بر شباهت ساختاری و محتوایی. پردازش علائم و داده‌ها. 1395; 13 (2) :11-23

URL: http://jsdp.rcisp.ac.ir/article-1-29-fa.html

خوشه‌بندی فراابتکاری اسناد فارسی اِکس‌اِم‌اِل مبتنی بر شباهت ساختاری و محتوایی

علی مرادی

، اسدالله شاه بهرامی

، رضا ابراهیمی آتانی^*

، مهران علیدوست نیا

دانشگاه گیلان

چکیده: (8306 مشاهده)

با توجه به رشد فزاینده‌ی تعداد اسناد XML، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می‌باشد. یک راه‌حل امکان‌پذیر، انجام خوشه‌بندی بر روی اسناد XML به منظور کشف دانش است. مسئله کلیدی در خوشه‌بندی اسناد XML این است که چگونه می‌توان شباهت بین اسناد XML را اندازه‌گیری کرد. استفاده از روش‌های متداول خوشه‌بندی اسناد متنی که اطلاعات محتوایی را برای اندازه‌گیری شباهت سند بکار می‌گیرند، باعث می‌شود اطلاعات ساختاری موجود در اسناد XML نادیده گرفته شود. در این مقاله، مدل جدیدی با نام مدل فضای ماتریسی برای بازنمایی هر دو ویژگی ساختاری و محتوایی داده‌ها در اسناد XML، پیشنهاد می‌شود. بر اساس این مدل، معیار شباهت جاکارد را تعریف و در نهایت از الگوریتم رقابت استعماری برای خوشه‌بندی اسناد XML استفاده می‌شود. نتایج تجربی نشان می‌دهد که مدل پیشنهادی و تابع نزدیکی معرفی شده در شناسایی اسناد مشابه که دارای اطلاعات ساختاری و محتوایی یکسان هستند، موثر است. این روش می‌تواند به منظور بهبود دقت خوشه‌بندی و افزایش بهره‌وری در بازیابی اطلاعات XML مورد استفاده قرار گیرد.

واژه‌های کلیدی: خوشه‌بندی، زبان فارسی، الگوریتم رقابت استعماری، پردازش زبان طبیعی و بازیابی اطّلاعات

متن کامل [PDF 2032 kb] (3567 دریافت)

نوع مطالعه: كاربردي | موضوع مقاله: مقالات پردازش متن
دریافت: 1392/2/7 | پذیرش: 1395/3/26 | انتشار: 1395/6/28 | انتشار الکترونیک: 1395/6/28

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.