دوره 18، شماره 4 - ( 12-1400 )                   جلد 18 شماره 4 صفحات 164-153 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Hasan Nezhad Namaghi H, Mashayekhi H, Zahedi M. Detecting Concept Drift in Data Stream Using Semi-Supervised Classification. JSDP. 2022; 18 (4) :153-164
URL: http://jsdp.rcisp.ac.ir/article-1-1031-fa.html
حسن نژاد نامقی حسین، مشایخی هدی، زاهدی مرتضی. تشخیص تغییر مفهوم در جریان داده با کمک رده‌بند نیمه‌نظارتی. پردازش علائم و داده‌ها. 1400; 18 (4) :164-153

URL: http://jsdp.rcisp.ac.ir/article-1-1031-fa.html


دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شاهرود
چکیده:   (419 مشاهده)
جریان داده به دنباله‌ای از داده‌ها گفته می‌شود که از منابع اطلاعاتی مختلف با سرعت زیاد و حجم بالا تولید می‌شوند. از مهم‌ترین چالش‌های موجود در تحلیل جریان‌ داده وجود تغییر مفهوم در آن‌ها است. تغییر مفهوم به معنای تغییر ویژگی‌های آماری داده‌هاست. در بسیاری از پژوهش‌های موجود برای مقابله با چالش نامحدود‌بودن طول جریان داده و یا چالش تغییر مفهوم، از رویکردهایی با فرض موجود‌بودن برچسب درست برای همه داده‌ها استفاده می‌کنند؛ در‌حالی‌که با توجه به هزینه‌بر‌بودن فرآیند برچسب‌دهی جریان داده، به‌طورعمومی فرض می‌شود تنها بخشی از داده‌ها دارای برچسب هستند. در این مقاله یک روش یادگیری گروهی نیمه‌نظارتی ارائه شده که از تغییر آنتروپی برای تشخیص تغییر مفاهیم در رده‌بندی جریان داده استفاده می‌کند. مدل یادگیری گروهی پیشنهادی با تعداد محدودی داده برچسب‌دار اولیه آموزش می‌بیند؛ سپس در صورت مشاهده تغییر مفهوم، از داده‌های بدون برچسب برای به‌روزرسانی مدل رده‌بند گروهی استفاده می‌کند. روش پیشنهادی قادر است تغییرات موجود در مجموعه‌داده را تشخیص داده و با به‌روزرسانی مدل یادگیری، در بهبود دقت الگوریتم مؤثر باشد. نتایج آزمایش‌ها نشان می‌دهد که روش پیشنهادی از جنبه‌های مختلف نسبت به سایر روش‌ها کارایی بالاتری دارد
 
شماره‌ی مقاله: 9
متن کامل [PDF 702 kb]   (161 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش داده‌های رقمی
دریافت: 1398/3/18 | پذیرش: 1399/12/11 | انتشار: 1401/1/1 | انتشار الکترونیک: 1401/1/1

فهرست منابع
1. [1] M. Masud, J. Gao, L. Khan, J. Han and B. M. Thuraisingham, "Classification and novel class detection in concept-drifting data streams under time constraints," IEEE Transactions on knowledge and data engineering, vol. 23, no. 6, pp. 859-874, 2010. [DOI:10.1109/TKDE.2010.61]
2. [2] M. M. Masud, Q. Chen, L. Khan, C. Aggarwal, J. Gao, J. Han and B. Thuraisingham, "Addressing concept-evolution in concept-drifting data streams," in 2010 IEEE International Conference on Data Mining, IEEE, 2010, pp. 929-934. [DOI:10.1109/ICDM.2010.160]
3. [3] B. S. Parker and L. Khan, "Detecting and tracking concept class drift and emergence in non-stationary fast data streams," in Twenty-ninth AAAI conference on artificial intelligence, 2015. [DOI:10.1109/ICDMW.2014.116]
4. [4] R. Klinkenberg, "Learning drifting concepts: Example selection vs. example weighting," Intelligent data analysis, vol. 8, no. 3, pp. 281-300, 2004. [DOI:10.3233/IDA-2004-8305]
5. [5] A. Bifet and R. Gavalda, "Learning from time-changing data with adaptive windowing," in Proceedings of the 2007 SIAM international conference on data mining, SIAM, 2007, pp. 443-448. [DOI:10.1137/1.9781611972771.42]
6. [6] A. Haque, L. Khan and M. Baron, "Sand: Semi-supervised adaptive novel class detection and classification over data stream," in THIRTIETH AAAI Conference on Artificial Intelligence, 2016.
7. [7] L. I. Kuncheva and W. J. Faithfull, "PCA feature extraction for change detection in multidimensional unlabeled data," IEEE transactions on neural networks and learning systems, vol. 25, no. 1, pp. 69-80, 2013. [DOI:10.1109/TNNLS.2013.2248094] [PMID]
8. [8] P. Sidhu and M. Bhatia, "A novel online ensemble approach to handle concept drifting data streams: diversified dynamic weighted majority," International Journal of Machine Learning and Cybernetics, vol. 9, no. 1, pp. 37-61, 2018. [DOI:10.1007/s13042-015-0333-x]
9. [9] O. A. Mahdi, E. Pardede and J. Cao, "Combination of information entropy and ensemble classification for detecting concept drift in data stream," in Proceedings of the Australasian Computer Science Week Multiconference, ACM, 2018, p. 13. [DOI:10.1145/3167918.3167946] [PMCID]
10. [10] M. Ester, H.-P. Kriegel, J. Sander and X. Xu, "A density-based algorithm for discovering clusters in large spatial databases with noise," in Kdd, 1996, pp. 226-231.
11. [11] X. Zhu and A. B. Goldberg, "Introduction to semi-supervised learning," Synthesis lectures on artificial intelligence and machine learning, vol. 3, no. 1, pp. 1-130, 2009. [DOI:10.2200/S00196ED1V01Y200906AIM006]
12. [12] A. Tsymbal, "The problem of concept drift: definitions and related work," Computer Science Department, Trinity College Dublin, vol. 106, no. 2, p. 58, 2004.
13. [13] I. Žliobaitė, "Learning under concept drift: an overview," in arXiv preprint arXiv:1010.4784, 2010.
14. [14] A. Bifet, G. Holmes, B. Pfahringer, R. Kirkby and R. Gavaldà, "New ensemble methods for evolving data streams," in Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, 2009, pp. 139-148. [DOI:10.1145/1557019.1557041]
15. [15] S. J. Morshed, J. Rana and M. Milrad, "Real-time Data analytics: An algorithmic perspective," in International Conference on Data Mining and Big Data, Springer, 2016, pp. 311-320. [DOI:10.1007/978-3-319-40973-3_31]
16. [16] A. Bifet, G. Holmes, R. Kirkby and B. Pfahringer, "Moa: Massive online analysis," Journal of Machine Learning Research, vol. 11, no. May, pp. 1601-1604, 2010.
17. [17] B. Pfahringer, G. Holmes and R. Kirkby, "Handling numeric attributes in hoeffding trees," in Pacific-Asia Conference on Knowledge Discovery and Data Mining, Berlin, Heidelberg, Springer, 2008, pp. 296-307. [DOI:10.1007/978-3-540-68125-0_27]
18. [18] D.L. Cabral, D. Rafael, and R.S.M. de Barros. "Concept drift detection based on Fisher's Exact test." Information Sciences, vol. 442, pp. 220-234, 2018. [DOI:10.1016/j.ins.2018.02.054]
19. [19] R.F. de Mello, Y. Vaz, C.H. Grossi, and A. Bifet. "On learning guarantees to unsupervised concept drift detection on data streams." Expert Systems with Applications. Vol. 117, pp. 90-102, 2019. [DOI:10.1016/j.eswa.2018.08.054]
20. [20] X. Wang, Q. Kang, M. Zhou, L. Pan, and A. Abusorrah. "Multiscale Drift Detection Test to Enable Fast Learning in Nonstationary Environments." IEEE Transactions on Cybernetics, pp. 1-13, 2020.
21. [21] Y. Song, J. Lu, H. Lu, and G. Zhang. "Fuzzy clustering-based adaptive regression for drifting data streams." IEEE Transactions on Fuzzy Systems, vol. 28, no. 3, pp. 544-557, 2019. [DOI:10.1109/TFUZZ.2019.2910714]
22. [22] Y. Li, Y. Wang, Q. Liu, C. Bi, X. Jiang, and S. Sun. "Incremental semi-supervised learning on streaming data." Pattern Recognition, vol. 88 pp. 383-396, 2019. [DOI:10.1016/j.patcog.2018.11.006]
23. [23] X. Mu, F. Zhu, J. Du, E.P. Lim, & Z.H. Zhou, "Streaming classification with emerging new class by class matrix sketching" In Thirty-First AAAI Conference on Artificial Intelligence, pp. 2373-2379, 2017.
24. [24] P. Vorburger, A. Bernstein. "Entropy-based concept shift detection" In Sixth IEEE International Conference on Data Mining, ICDM'06, pp. 1113-1118, 2006. [DOI:10.1109/ICDM.2006.66]
25. [25] L. Du, Q. Song, and X. Jia. "Detecting concept drift: an information entropy based method using an adaptive sliding window." Intelligent Data Analysis vol. 18, no. 3, pp. 337-364, 2014. [DOI:10.3233/IDA-140645]
26. [26] J. Haug, G. Kasneci. "Learning Parameter Distributions to Detect Concept Drift in Data Streams". arXiv preprint arXiv:2010.09388. 2020.
27. [27] H. Hanqing, M. Kantardzic, T. S. Sethi. "No Free Lunch Theorem for concept drift detection in streaming data classification: A review." Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, Vol. 10, no. 2, e1327, 2020. [DOI:10.1002/widm.1327]
28. [28] م. مسافری، ع. صفائی. ارائه روشی پویا جهت پاسخ به پرس‌وجوهای پیوسته تجمّعی اقتضایی. پردازش علائم و داده‌ها. جلد ۱۴، شماره ۳، ص۲۲-۳، ۱۳۹۶.
29. [28] M. Mosaferi, A. Safaei, "Providing a Dynamic Technique for Answering Ad-hoc Continuous Aggregate". Journal of Signal and Data Processing. Vol. 14, No. 3, pp. 3-22, 2017. [DOI:10.29252/jsdp.14.3.3]

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.