با توجه به رشد فزایندهی تعداد اسناد XML، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری میباشد. یک راهحل امکانپذیر، انجام خوشهبندی بر روی اسناد XML به منظور کشف دانش است. مسئله کلیدی در خوشهبندی اسناد XML این است که چگونه میتوان شباهت بین اسناد XML را اندازهگیری کرد. استفاده از روشهای متداول خوشهبندی اسناد متنی که اطلاعات محتوایی را برای اندازهگیری شباهت سند بکار میگیرند، باعث میشود اطلاعات ساختاری موجود در اسناد XML نادیده گرفته شود. در این مقاله، مدل جدیدی با نام مدل فضای ماتریسی برای بازنمایی هر دو ویژگی ساختاری و محتوایی دادهها در اسناد XML، پیشنهاد میشود. بر اساس این مدل، معیار شباهت جاکارد را تعریف و در نهایت از الگوریتم رقابت استعماری برای خوشهبندی اسناد XML استفاده میشود. نتایج تجربی نشان میدهد که مدل پیشنهادی و تابع نزدیکی معرفی شده در شناسایی اسناد مشابه که دارای اطلاعات ساختاری و محتوایی یکسان هستند، موثر است. این روش میتواند به منظور بهبود دقت خوشهبندی و افزایش بهرهوری در بازیابی اطلاعات XML مورد استفاده قرار گیرد.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |