Signal and Data Processing
پردازش علائم و دادهها
JSDP
Engineering & Technology
http://jsdp.rcisp.ac.ir
1
admin
2538-4201
2538-421X
10.52547/jsdp
1
8888
fa
jalali
1397
12
1
gregorian
2019
3
1
15
4
online
1
fulltext
fa
انتخاب اعضای ترکیب در خوشهبندی ترکیبی با استفاده از رأیگیری
Cluster ensemble selection using voting
مقالات پردازش دادههای رقمی
Paper
پژوهشي
Research
<div style="text-align: justify;"><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">خوشه­بندی ترکیبی، به ترکیب نتایج حاصل از خوشه­بندی­های موجود می­پردازد. پژوهشهای دهۀ اخیر نشان می­دهد، چنان­چه به جای ترکیب همۀ خوشه­بندی­ها، تنها دسته­ای از ­­­­­­­آن­ها بر اساس کیفیت و تنوع انتخاب شوند، آن­چه به­عنوان خروجی خوشه­بندی ترکیبی حاصل میشود، بسیار دقیق­تر خواهد بود. این مقاله به ارائه یک روش جدید برای انتخاب خوشه­بندی­ها بر اساس دو معیار کیفیت و تنوع میپردازد. برای رسیدن به این منظور ابتدا خوشه­بندی­های مختلفی با استفاده از الگوریتم </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;">k-means</span></span></span></strong> <strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">ایجاد می­شود که در هر بار اجرا، مقدار </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;">k</span></span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> یک عدد تصادفی است. در ادامه خوشهبندی­هایی که به این نحو تولید شده­اند، با استفاده از الگوریتم جدیدی</span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">که براساس میزان شباهت بین خوشهبندی­های مختلف عمل می­کند،</span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> گروه­بندی می­شوند تا آن­دسته از خوشه­بندی­هایی که به یکدیگر شبیه­اند در یک دسته قرار گیرند؛ سپس از هر دسته، با استفاده از یک روش مبتنی بر رأی­گیری، با کیفیت­ترین عضو آن برای ایجاد خوشه­بندی ترکیبی انتخاب میشود.</span></span></strong> <strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">در این مقاله از سه تابع </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;">HPGA</span></span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;">، </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;">CSPA</span></span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> و </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;">MCLA</span></span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> برای ترکیب خوشه­بندی­ها استفاده شده است. در انتها برای آزمایش این روش جدید از داده­های واقعی موجود در پایگاه داده </span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;">UCI</span></span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> استفاده شده است. نتایج نشان می­دهد که روش جدید کارایی بیشتر و دقیقتری نسبت</span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> به</span></span></strong><strong><span style="font-family:b nazanin;"><span style="font-size:10.0pt;"> روش­های قبلی دارد.</span></span></strong><strong><span dir="LTR"><span style="font-family:times new roman bold,serif;"><span style="font-size:8.0pt;"></span></span></span></strong></div>
<p style="text-align: justify;"><strong>Clustering is the process of division of a dataset into subsets that are called clusters, so that objects within a cluster are similar to each other and different from objects of </strong><strong>the </strong><strong>other clusters. So far, a lot of algorithms in different approaches have been created for the clustering. An effective choice</strong><strong> (can combine)</strong><strong> two or more of these algorithms for solving the clustering problem. Ensemble clustering combines results of existing clusterings</strong><strong> to achieve better performance and higher accuracy</strong><strong>. Instead of combining all of existing clusterings, </strong><strong>r</strong><strong>ecent decade researcher</strong><strong>s </strong><strong>show, if only a set of clusterings is selected based on quality and diversity</strong><strong>,</strong><strong> the result of ensemble clustering would be more accurate.</strong><strong> T</strong><strong>his</strong> <strong>paper</strong> <strong>propose</strong><strong>s </strong><strong>a new method</strong> <strong>for </strong><strong>ensemble </strong><strong>clustering</strong> <strong>based on quality and diversity. </strong><strong>For this </strong><strong>purpose</strong><strong>, firstly</strong><strong> first we need a lot of </strong><strong>different</strong><strong> base clusterings to combine them.</strong><strong> Different</strong><strong> base </strong><strong>clusterings are generated by k-means algorithm with random k in each execution. After the generation of </strong><strong>base </strong><strong>clusterings,</strong><strong> they are</strong> <strong>put</strong><strong> into different group</strong><strong>s</strong><strong> according to their similarit</strong><strong>ies</strong><strong> using a new grouping method.</strong> <strong>So that cluster</strong><strong>ings</strong> <strong>which</strong><strong> are similar to each other are put together in </strong><strong>one group. </strong><strong>In this step, we use normalized mutual information (NMI) or adjusted rand index (ARI) for computing similarities and di</strong><strong>s</strong><strong>similarities between the base</strong> <strong>clustering</strong><strong>.</strong><strong> Then from each group, a best qualified clustering is selected via a voting based method.</strong><strong> In this method, Cluster-validity-indices were used to measure the quality of clustering. So that all members of the group are evaluated by the Cluster-validity-indices. In each group, clustering that optimizes the most number of Cluster-validity-indices is selected. </strong><strong> Finally, consensus function</strong><strong>s combine all selected clustering. Consensus function is an algorithm for combining existing clusterings to produce final clusters. In this paper, three</strong><strong> consensus</strong> <strong>function</strong><strong>s including </strong><strong>CSPA, MCLA</strong><strong>,</strong><strong> and HGPA</strong><strong> have used</strong><strong> for combining clustering. </strong><strong>To evaluate proposed method,</strong><strong> real dataset</strong><strong>s</strong><strong> from UCI</strong> <strong>repository</strong><strong> have</strong><strong> used.</strong><strong> In experiment section, the proposed method is compared with the well-known and powerful existing methods.</strong> <strong>E</strong><strong>xperimental </strong><strong>r</strong><strong>esults demonstrate that proposed algorithm </strong><strong>has</strong> <strong>better</strong><strong> performance and</strong><strong> higher </strong><strong>accuracy </strong><strong>than</strong><strong> previous works.</strong><br>
</p>
خوشهبندی ترکیبی, انتخاب اعضا, شاخصهای ارزیابی کیفیت
Ensemble clustering, select member, validity index
17
30
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-815-3&slc_lang=fa&sid=1
Alireza
Latifi Pakdehi
علیرضا
لطیفی پاکدهی
alireza.latifi@yahoo.com
10031947532846007073
10031947532846007073
No
Shahid Rajaee Teacher Training University
دانشگاه تربیت دبیر شهید رجایی
Negin
Daneshpour
نگین
دانشپور
ndaneshpour@sru.ac.ir
10031947532846007074
10031947532846007074
Yes
Shahid Rajaee Teacher Training University
دانشگاه تربیت دبیر شهید رجایی