دوره 21، شماره 1 - ( 3-1403 )                   جلد 21 شماره 1 صفحات 52-39 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Daneshpour N. Presenting a new method for mixed data clustering based on the number of similar features. JSDP 2024; 21 (1) : 4
URL: http://jsdp.rcisp.ac.ir/article-1-1329-fa.html
رضایی حمید، دانشپور نگین. ارائه روشی جدید برای خوشه بندی داده های مخلوط بر مبنای تعداد ویژگی مشابه. پردازش علائم و داده‌ها. 1403; 21 (1) :39-52

URL: http://jsdp.rcisp.ac.ir/article-1-1329-fa.html


دانشگاه تربیت دبیر شهید رجایی
چکیده:   (220 مشاهده)
خوشه ­بندی عملیاتی است که در آن مجموعه­ای از نمونه داده‌ها، نسبت به میزان شباهت، دسته­بندی می­شوند. نمونه داده­های خوشه­بندی، عددی یا مخلوطی از عددی و غیرعددی (اسمی) هستند. یافتن میزان شباهت و اندازه‌گیری فاصله، از چالش­های خوشه­بندی داده ­های مخلوط است. در این مقاله سعی شده است در محاسبه میزان شباهت و تعیین فاصله، به پارامتر "تعداد ویژگی‌های مشابه" توجه شود. در نسبت دادن هر نمونه به خوشه در مواردی که فاصله‌ها برابر یا نزدیک باشد، تعداد ویژگی‌های مشترک نمونه‌ها تعیین کننده خوشه مناسب خواهد بود. برای محاسبه فاصله در الگوریتم مورد نظر از تفاضل عددی نرمالسازی شده برای ویژگی‌های عددی و از فاصله همینگ برای ویژگی‌های غیرعددی استفاده شده است. تعیین مرکز خوشه اولیه نیز مانند بسیاری از روش‌ها بصورت تصادفی انجام شده است و در تکرارهای بعدی الگوریتم، نمونه مناسب‌تر به عنوان مرکز خوشه انتخاب می‌شود. الگوریتم مورد نظر با 5 الگوریتم دیگر در 5 مجموعه‌ داده مقایسه شده است. در بررسی نتایج، از سه معیارAccuracy ، RI، F-Measure  استفاده شده است. طبق نتایج آزمایشات، در سه مجموعه‌داده، الگوریتم موردنظر حداقل دو درصد بهتر از دو الگوریتم و یک درصد بهتر از یکی دیگر از الگوریتم‌ها عمل کرده است. در یکی دیگر از مجموعه‌داده‌ها الگوریتم موردنظر نتایج برابر یا نزدیک به یک درصد دقت بهتر نسبت به الگوریتم برتر داشت. در مجموعه‌داده آخر نیز الگوریتم مورد نظر در رتبه دوم از بین 5 الگوریتم قرار داشت.
شماره‌ی مقاله: 4
متن کامل [PDF 866 kb]   (107 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش داده‌های رقمی
دریافت: 1401/5/12 | پذیرش: 1402/12/6 | انتشار: 1403/5/13 | انتشار الکترونیک: 1403/5/13

فهرست منابع
1. Ahmad, Amir, and Shehroz S. Khan. "Survey of state-of-the-art mixed data clustering algorithms." Ieee Access 7 (2019): 31883-31902. [DOI:10.1109/ACCESS.2019.2903568]
2. Ahmad, Amir, and Shehroz S. Khan. "initKmix-A novel initial partition generation algorithm for clustering mixed data using k-means-based clustering." Expert Systems with Applications 167 (2021): 114149. [DOI:10.1016/j.eswa.2020.114149]
3. Behzadi, Sahar, et al. "Clustering of mixed-type data considering concept hierarchies: problem specification and algorithm." International Journal of Data Science and Analytics 10.3 (2020): 233-248. [DOI:10.1007/s41060-020-00216-2]
4. Kumar, Pradeep, and Anita Kanavalli. "A Similarity based K-Means Clustering Technique for Categorical Data in Data Mining Application." International Journal of Intelligent Engineering and Systems 14.2 (2021): 43-51. [DOI:10.22266/ijies2021.0430.05]
5. Ji, Jinchao, et al. "A Multi-View Clustering Algorithm for Mixed Numeric and Categorical Data." IEEE Access 9 (2021): 24913-24924. [DOI:10.1109/ACCESS.2021.3057113]
6. Sangam, Ravi Sankar, and Hari Om. "An equi-biased k-prototypes algorithm for clustering mixed-type data." Sādhanā 43.3 (2018): 1-12. [DOI:10.1007/s12046-018-0823-0]
7. Yuan, Fang, Youlong Yang, and Tiantian Yuan. "A dissimilarity measure for mixed nominal and ordinal attribute data in k-Modes algorithm." Applied Intelligence 50.5 (2020): 1498-1509 [DOI:10.1007/s10489-019-01583-5]
8. Jia, Ziqi, and Ling Song. "Weighted k-Prototypes Clustering Algorithm Based on the Hybrid Dissimilarity Coefficient." Mathematical Problems in Engineering 2020 (2020). [DOI:10.1155/2020/5143797]
9. Jia, Hong, Yiu-ming Cheung, and Jiming Liu. "A new distance metric for unsupervised learning of categorical data." IEEE transactions on neural networks and learning systems 27.5 (2015): 1065-1079. [DOI:10.1109/TNNLS.2015.2436432]
10. Ji, Jinchao, et al. "Clustering mixed numeric and categorical data with artificial bee colony strategy." Journal of Intelligent & Fuzzy Systems 36.2 (2019): 1521-1530. [DOI:10.3233/JIFS-18146]
11. Skabar, Andrew. "Clustering Mixed-Attribute Data using Random Walk." Procedia Computer Science 108 (2017): 988-997. [DOI:10.1016/j.procs.2017.05.083]
12. Du, Mingjing, Shifei Ding, and Yu Xue. "A novel density peaks clustering algorithm for mixed data." Pattern Recognition Letters 97 (2017): 46-53 [DOI:10.1016/j.patrec.2017.07.001]
13. Qian, Yuhua, et al. "Space structure and clustering of categorical data." IEEE transactions on neural networks and learning systems 27.10 (2015): 2047-2059. [DOI:10.1109/TNNLS.2015.2451151]
14. dos Santos, Tiago RL, and Luis E. Zárate. "Categorical data clustering: What similarity measure to recommend?. " Expert Systems with Applications 42.3 (2015): 1247-1260. [DOI:10.1016/j.eswa.2014.09.012]
15. Ahmad, Amir, and Sarosh Hashmi. "K-Harmonic means type clustering algorithm for mixed datasets." Applied Soft Computing 48 (2016): 39-49. [DOI:10.1016/j.asoc.2016.06.019]
16. Ji, Jinchao, et al. "An initialization method for clustering mixed numeric and categorical data based on the density and distance." International Journal of Pattern Recognition and Artificial Intelligence 29.07 (2015): 1550024. [DOI:10.1142/S021800141550024X]
17. van de Velden, Michel, Alfonso Iodice D'Enza, and Angelos Markos. "Distance‐based clustering of mixed data." Wiley Interdisciplinary Reviews: Computational Statistics 11.3 (2019): e1456. [DOI:10.1002/wics.1456]
18. Caruso, Giulia, et al. "Cluster analysis: An application to a real mixed-type data set." Models and Theories in Social Systems. Springer, Cham, 2019. 525-533. [DOI:10.1007/978-3-030-00084-4_27]
19. Jinyin, Chen, et al. "A novel cluster center fast determination clustering algorithm." Applied Soft Computing 57 (2017): 539-555 [DOI:10.1016/j.asoc.2017.04.031]
20. Xiong, Jing, and Hong Yu. "An adaptive three-way clustering algorithm for mixed-type data." International Symposium on Methodologies for Intelligent Systems. Springer, Cham, 2018. [DOI:10.1007/978-3-030-01851-1_36]
21. Dinh, Duy-Tai, and Van-Nam Huynh. "k-PbC: an improved cluster center initialization for categorical data clustering." Applied Intelligence (2020): 1-23. [DOI:10.1007/s10489-020-01677-5]
22. Hsu, Chung-Chian, and Yan-Ping Huang. "Incremental clustering of mixed data based on distance hierarchy." Expert systems with applications 35.3 (2008): 1177-1185. [DOI:10.1016/j.eswa.2007.08.049]
23. Ahmad, Amir, and Lipika Dey. "A k-mean clustering algorithm for mixed numeric and categorical data." Data & Knowledge Engineering 63.2 (2007): 503-527. [DOI:10.1016/j.datak.2007.03.016]
24. UCI Repository. https://archive.ics.uci.edu/ml/datasets.html. (September 6, 2021).

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.