پرکردن داده‌های گمشده در داده‌های سری زمانی چندمتغیره

دانشپور, نگین; میرابوالقاسمی, سیده فاطمه

doi:10.52547/jsdp.19.2.39

دوره 19، شماره 2 - ( 7-1401 ) جلد 19 شماره 2 صفحات 60-39 | برگشت به فهرست نسخه ها

‎ 10.52547/jsdp.19.2.39

Mendeley

Zotero

RefWorks

Daneshpour N, mirabolghasemi S F. Missing Data Imputation in Multivariate Time Series Data. JSDP 2022; 19 (2) : 4
URL: http://jsdp.rcisp.ac.ir/article-1-1104-fa.html

دانشپور نگین، میرابوالقاسمی سیده فاطمه. پرکردن داده‌های گمشده در داده‌های سری زمانی چندمتغیره. پردازش علائم و داده‌ها. 1401; 19 (2) :39-60

URL: http://jsdp.rcisp.ac.ir/article-1-1104-fa.html

پرکردن داده‌های گمشده در داده‌های سری زمانی چندمتغیره

نگین دانشپور^*

، سیده فاطمه میرابوالقاسمی

دانشکده مهندسی کامپیوتر، دانشگاه تربیت دبیر شهید رجایی

چکیده: (2532 مشاهده)

دادههای سری زمانی چندمتغیره در زمینه‌های مختلف مانند بیوانفورماتیک، زیست‌شناسی، ژنتیک، نجوم، علوم جغرافیایی و امور مالی یافت می‌شوند. بسیاری از این مجموعه‌داده‌ها دارای داده گمشده هستند. جایگذاری داده‌های گمشده سری زمانی چندمتغیره، یکی از مباحث چالش برانگیز است و قبل از فرایند یادگیری یا پیشبینی سری‌های زمانی باید با دقت مورد توجه و بررسی قرار گیرد. تحقیقات فراوانی در استفاده از روش‌های مختلف برای جایگذاری داده‌های گمشده سری زمانی انجام شده است که به‌طورمعمول شامل روش‌های تجزیه و تحلیل و مدل‌سازی‌های ساده در کاربردهای خاص و یا سری‌های زمانی تک‌متغیره هستند. در این مقاله یک نسخه بهبود‌یافته از درون‌یابی معکوس فاصله وزن‌دار برای جایگذاری داده‌های گمشده پیشنهاد شده‌ است. روش درون‌یابی معکوس فاصله وزن‌دار دو محدودیت اساسی دارد: 1) یافتن بهترین نقاط نزدیکتر به داده‌های گمشده 2) انتخاب توان تأثیر بهینه برای همسایگان داده گمشده. برای بهبود روش درون‌یابی، از خوشه‌بندی k-means استفاده شده ‌است، تا همسایه‌های با بیشترین شباهت به الگوی دادهای انتخاب شوند. از آنجا که میزان تأثیر هر یک از همسایه‌ها بر روی داده گمشده متفاوت است، از الگوریتم جستجوی فاخته برای تعیین توان تأثیر همسایگی استفاده میشود. برای ارزیابی عملکرد روش پیشنهادی، از پنج معیار ارزیابی شناخته‌شده ‌استفاده میشود. نتایج تجربی بر روی چهار مجموعه‌داده UCI با درصدهای مختلف گمشدگی مورد بررسی قرار گرفته و در‌مجموع الگوریتم پیشنهادی نسبت به سه روش مقایسه‌ای دیگر عملکرد بهتر و به‌طور میانگین حدود 05/0 خطای RMSE، 04/0 خطای MAE، 003/0 خطای MSE و 5 درصد خطای MAPE داشته است. میزان همبستگی داده‌های واقعی و مقدار برآورد‌شده در روش پیشنهادی بسیار مطلوب و در حدود 99 درصد است.

شماره‌ی مقاله: 4

واژه‌های کلیدی: جایگذاری داده‌های گمشده، درون‌یابی IDW، الگوریتم جستجوی فاخته، خوشه‌بندی k‌-means، سری‌های زمانی چندمتغیره

متن کامل [PDF 1666 kb] (1674 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش داده‌های رقمی
دریافت: 1398/10/9 | پذیرش: 1399/7/22 | انتشار: 1401/7/8 | انتشار الکترونیک: 1401/7/8

فهرست منابع

1. [1] R. H. Shumway and D. S. Stoffer, "Time series analysis and its applications: with R examples", Springer Science & Business Media, Fourth edition, 2017. [DOI:10.1007/978-3-319-52452-8]

2. [2] Ratanamahatana C., "Multimedia retrieval using time series representation and relevance feedback", in: Proceedings of 8th International Conference on Asian Digital Libraries, 2005, pp. 400-405. [DOI:10.1007/11599517_48]

3. [3] C.Ratanamahatana, V. Niennattrakul, "Clustering multimedia data using time series", in: Proceedings of the International Conference on Hybrid InformationTechnology, ICHIT '06, 2016, pp.372-379.

4. [4] M.S. Mahmoud, M.F. Emzir, "State estimation with asynchronous multi-rate multi-smart sensors", Information Sciences, vol.196, pp.15-27, 2012. [DOI:10.1016/j.ins.2012.01.034]

5. [5] S. Mohamed, T. Marwala, "Neural network based techniques for estimating missing data in databases", pp. 27-32, 2005.

6. [6] W. Qiao, Z. GAO, R.G. Harley, "Continuous on-line identification of nonlinear plants in power systems with missing sensor measurements", IEEE, pp. 1729-1734, 2005.

7. [7] J. Honaker, G. King, "What to do about missing values in time-series cross-section data", American Journal of Political Science, vol.54 (2), pp.561-581, 2010. [DOI:10.1111/j.1540-5907.2010.00447.x]

8. [8] J. Lin, E. Keogh, S. Lonardi, J. Lankford, D. Nystrom, "Visually mining and monitoring massive time series", in: Proceedings of 2004ACM SIGKDD International Conference on Knowledge Discovery and data Mining - KDD '04, 2004, 460-475. [DOI:10.1145/1014052.1014104]

9. [9] R.J.A. Little, D.B. Rubin, "Statistical analysis with missing data", 3rd Edition, 2014.

10. [10] M. Amiri, R. Jensen, "Missing data imputation using fuzzy-rough methods", Neurocomputing, vol.196, pp.15-27, 2016. [DOI:10.1016/j.neucom.2016.04.015]

11. [11] C.K. Enders, "Applied Missing Data Analysis", Guilford Press. ISBN 978-1-60623-639-0 .2010.

12. [12] D. M. Kreindler, C. J. Lumsden, "The effects of the irregular sample and missing data in time series analysis", Nonlinear Dynamics Psychology and Life Sciences, vol.10(2), pp.187-214, 2012.

13. [13] C.De Boor, E. Mathématicien, "A practical guide to splines", Mathematical Sciences, vol. 27, 2005.

14. [14] D. Mondal, D. B. Percival, "Wavelet variance analysis for gappy time series", Annals Inst. Stat. Math, vol.62, pp. 943-966, 2010. [DOI:10.1007/s10463-008-0195-z]

15. [15] K. Rehfeld, N. Marwan, J. Heitzig, "Comparison of correlation analysis techniques for irregularly sampled time series", Nonlinear Process. Geophys, vol.18, 2011. [DOI:10.5194/npg-18-389-2011]

16. [16] P.J. Garca-Laencina, J.-L Sancho-Gómez. "Pattern classification with missing data: a review", Neural Comput, vol.19, 2010. [DOI:10.1007/s00521-009-0295-6]

17. [17] R. Mazumder, T. Hastie, R. Tibshirani, "Spectral regularization algorithms for learning large incomplete matrices", Machine learning research, vol.11, pp. 2287-2322, 2010.

18. [18] Y. Koren, R. Bell, C. Volinsky, "Matrix factorization techniques for recommender systems", Comput, vol.42, 2009. [DOI:10.1109/MC.2009.263]

19. [19] I. R. White, P. Royston, A. M. Wood, "Multiple imputation using chained equations: issues and guidance for practice", Stat. medicine, vol.30, pp. 377-399, 2011. [DOI:10.1002/sim.4067] [PMID]

20. [20] B. J. Wells, K. M. Chagin, A. S. Nowacki, M. W. Kattan, "Strategies for handling missing data in electronic health record derived data," EGEMS 1, 2013. [DOI:10.13063/2327-9214.1035] [PMID] [PMCID]

21. [21] C. Lipton, C. Kale," Modeling Missing Data in Clinical Time Series with RNNs", Machine Learning for Healthcare, pp.56, 2016.

22. [22] Li. Li, J. Zhang, Y. Wang, "Missing Value Imputation for Traffic-Related Time Series Data Based on a Multi-View Learning Method", IEEE Transactions on Intelligent Transportation Systems, vol.20, pp. 2933 - 2943, 2019. [DOI:10.1109/TITS.2018.2869768]

23. [23] A. McLinden, V. Fioletov, W. Shephard, N. Krotkov, "Space-based detection of missing sulfur dioxide sources of global air pollution", Nature Geoscience, vol.9, pp. 496-500, 2016. [DOI:10.1038/ngeo2724]

24. [24] R. Mahmoudvand, P. Canas, "Missing value imputation in time series using Singular Spectrum Analysis", International Journal of Energy and Statistics, vol. 04,165005, 2016. [DOI:10.1142/S2335680416500058]

25. [25] N. Bokde, W. Beck, "A novel imputation methodology for time series based on pattern sequence forecasting", Pattern Recognition Letters, vol.116, pp.88-96, 2018. [DOI:10.1016/j.patrec.2018.09.020] [PMID] [PMCID]

26. [26] T.T. Hong Phan, E. Poisson Caillault, A. Lefebvre, A. Bigand, "Dynamic Time Warping-based imputation for univariate time series data", Pattern Recognition Letters, 2017.

27. [27] Z. Che, S. Purushotham, K. Cho, D. Sontag, Y. Liu."Recurrent Neural Networks for Multivariate Time Series with Missing Values", Scientific reports, vol.6085, pp.85-99, 2018. [DOI:10.1038/s41598-018-24271-9] [PMID] [PMCID]

28. [28] W.S. David, Wong. "Interpolation: Inverse‐Distance Weighting", The International Encyclopedia of Geography, pp.156-173, 2017.

29. [29] G. Mei, N. Xu & L. Xu, "Improving GPU-accelerated adaptive IDW interpolation algorithm using fast kNN search", pp.1389, 2016. [DOI:10.1186/s40064-016-3035-2] [PMID] [PMCID]

30. [30] J. Pratama, H. Pramoedyo, R. Fitriani, "comparison of inverse distance weighted and natural neighbor interpolation method at air temperature data in malang region", Cauchy, vol.5, pp.48-54, 2018. [DOI:10.18860/ca.v5i2.4722]

31. [31] S. Aghabozorgi, A. SeyedShirkhorshidi, T. YingWah,"Time-seriesclustering-A decadereview", Information Systems, vol.53, pp.16-38, 2015. [DOI:10.1016/j.is.2015.04.007]

32. [32] P. Roelofsen, "Time series clustering", Master thesis Business Analytic, Vrije Universiteit Amsterdam, 2018.

33. [33] Z. Bankó, J. Abonyi, "Correlation based dynamic time warping of multivariate time series", Expert Systems with Applications, vol.39, no.17, pp.12814-12823, 2012. [DOI:10.1016/j.eswa.2012.05.012]

34. [34] Guanyu Wang, "A Comparative Study of Cuckoo Algorithm and Ant Colony Algorithm in Optimal Path Problems", MATEC Web of Conferences 232, 03003, 2018. [DOI:10.1051/matecconf/201823203003]

35. [35] M. Jalal, M. Goharzay, "Cuckoo search algorithm for applied structural and design optimization: float system for experimental setups", Computational Design and Engineering, vol.6, no.159-172, 2018. [DOI:10.1016/j.jcde.2018.07.001]

36. [36] J. Tang, G. Zhang, Y. Wang, H. Wang, F. Liu, "A hybrid approach to integrate fuzzy C-means based imputation method with genetic algorithm for missing traffic volume data estimation", Transportation Research Part C: Emerging Technologies, vol.51, no. 29-40, 2015. [DOI:10.1016/j.trc.2014.11.003]

37. [37] W.L. Junger, A.P. de Leon, "Imputation of missing data in time series for air pollutants", Atmospheric Environment, vol. 102, pp. 96-104.2015. [DOI:10.1016/j.atmosenv.2014.11.049]

38. [38] L. Folguera, J. Zupan, D. Cicerone, J.F. Magallanes, "Self-organizing maps for imputation of missing data in incomplete data matrices", Chemometrics and Intelligent Laboratory Systems, vol. 143, pp.146-151,2015. [DOI:10.1016/j.chemolab.2015.03.002]

39. [39] T.T. Hong Phan, E. Poisson Caillault, A. Lefebvre, A. Bigand, "Dynamic Time Warping-based imputation for univariate time series data", Pattern Recognition Letters S0167-8655(17)30275-1, 2017.

40. [40] N. Bokde, M. W. Beck, F. Marttinez," A novel imputation methodology for time series based on pattern sequence forecasting", Pattern Recognition Letters, pp. 88-96, 2018. [DOI:10.1016/j.patrec.2018.09.020] [PMID] [PMCID]

41. [41] T.T. Hong Phan, A. Bigand, É. P. Caillault," A New Fuzzy Logic-Based Similarity Measure Applied to Large Gap Imputation for Uncorrelated Multivariate Time Series", Computational Intelligence and Soft Computing, pp. 1-15, 2018. [DOI:10.1155/2018/9095683]

42. [42] J. Tang, G. Zhang, Y. Wang, H. Wang," A hybrid approach to integrate fuzzy C-means based imputation method with genetic algorithm for missing traffic volume data estimation", Transportation Research, vol. 51, pp. 29-40, 2015. [DOI:10.1016/j.trc.2014.11.003]

43. [43] S. Sridevi, S. Rajaram, C. Parthiban, S. SibiArasan, C. Swadhikar, "Imputation for the Analysis of Missing Values and Prediction of Time Series Data", International Conference on Recent Trends in Information Technology,2011. [DOI:10.1109/ICRTIT.2011.5972466]

44. [44] C. O. Resende, A. Santana, F. Lobato, "Time series imputation using genetic programming and Lagrange interpolation", 5th Brazilian Conference on Intelligent Systems, 2016. [DOI:10.1109/BRACIS.2016.040]

45. [45] Y. Jane Nancya, H.Nehemiah Khannaa, K.Arputharaj, "Imputing missing values in unevenly spaced clinical time series data to build an effective temporal classification framework", vol.112, pp. 63-79, 2017. [DOI:10.1016/j.csda.2017.02.012]

46. [46] S. Aghabozorgi, A. SeyedShirkhorshidi, T. YingWah,"Time-seriesclustering-A decadereview", Information Systems, vol.53, pp.16-38, 2015. [DOI:10.1016/j.is.2015.04.007]

47. [47] P. Roelofsen, "Time series clustering", Master thesis Business Analytic, Vrije Universiteit Amsterdam, 2018.

48. [48] C. Cassisi, P. Montalto, M. Aliotta, A. Cannata, A. Pulvirenti, "Similarity measures and dimensionality reduction techniques for time series data mining", In A. Karahoca (Ed.), Advances in Data Mining Knowledge Discovery and Applications, Chapter 03, pp.71 - 96, 2012. [DOI:10.5772/49941]

49. [49] Aach, J. and G. M. Church. "Aligning gene expression time series with time warping algorithms", Bioinformatics, vol.17, no.6, pp. 495-508, 2001. [DOI:10.1093/bioinformatics/17.6.495] [PMID]

50. [50] T. Gorecki, "Classification of time series using combination of dtw and lcss dissimilarity measures", Communications in Statistics, Simulation and Computation, pp.1-14, 2017. [DOI:10.1080/03610918.2017.1280829]

51. [51] Y. Chen, X. Liu, X. Li, X. Liu, Y. Yao, G. Hu, F. Pei. "A dynamic time warping (DTW) distance based k -medoids method". Landscape and Urban Planning, vol.160, pp.48-60, 2017. [DOI:10.1016/j.landurbplan.2016.12.001]

52. [52] Kanungo, T., Mount, D. M., Netanyahu, N. S., Piatko, C. D., Silverman, R., & Wu, A. Y." An efficient k-means clustering algorithm: analysis and implementation", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.24, pp.881-892.2002. [DOI:10.1109/TPAMI.2002.1017616]

53. [53] Celebi, M. E., H. A. Kingravi, and P. A. Vela "A comparative study of efficient initialization methods for the k-means clustering algorithm". Expert Syst, Appl. 40(1), 200-210.2003. [DOI:10.1016/j.eswa.2012.07.021]

54. [54] R. Rajabioun, "Cuckoo Optimization Algorithm", Applied Soft Computing, Vol.11, No.8, pp. 5508- 5518, 2011. [DOI:10.1016/j.asoc.2011.05.008]

55. [55] F. Petitjean, A. Ketterlin, P. Gancarski, "A global averaging method for dynamic time warping, with applications to clustering", Pattern Recognition, vol. 44, no.3, pp. 678-693,2011. [DOI:10.1016/j.patcog.2010.09.013]

56. [56] M.Lichman, "UCI machine learning repository". http://archive.ics.uci.edu/ml .2013.

57. [57] W.L. Junger, A.P. de Leon, "Imputation of missing data in time series for air pollutants", Atmospheric Environment, vol.102, pp. 96-104,2015. [DOI:10.1016/j.atmosenv.2014.11.049]

58. [58] S.A Rahman, Y. Huang, J. Claassen, "Combining Fourier and Lagged k-Nearest Neighbor Imputation for Biomedical Time Series Data", Nathaniel Heintzman, and Samantha Kleinberg", J Biomed Inform, vol.58, pp.198-207, 2016. [DOI:10.1016/j.jbi.2015.10.004] [PMID] [PMCID]

59. [59] M. G. Rahman, M. Z. Islam, "Missing value imputation using a fuzzy clustering-based EM approach", Knowledge and Information Systems, vol.46 (2), pp. 389-422, 2016. [DOI:10.1007/s10115-015-0822-y]

60. [60] R. Deb, A. Liew. "Missing value imputation for the analysis of incomplete traffic accident data, " Information Sciences, vol.339, pp274-289 .2016. [DOI:10.1016/j.ins.2016.01.018]

61. [61] M.E. Quinteros, S. Lu, C. BlazquezCárdenas-R, J.P., X. Ossa, J.-M. DelgadoSaborit, R.M. Harrison, P. Ruiz-Rudolph, "Use of data imputation tools to reconstruct incomplete air quality datasets: A case-study in Temuco, Chile", Atmospheric Environment, 2018. [DOI:10.1016/j.atmosenv.2018.11.053]

62. [62] B. Golden, B. Grand, F. Rossi. "Mean Absolute Percentage Error for regression models", Neurocomputing, vol.192, pp.38-48. 2016. [DOI:10.1016/j.neucom.2015.12.114]

63. [63] M. Misuraca, M. Spano, S. Balbi, "BMS: An improved Dunn index for Document Clustering validation", Communications in Statistics, pp. 0361-0926, 2018. [DOI:10.1080/03610926.2018.1504968]

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.

نظر شما در مورد قالب جدید چیست؟
	خوب
	متوسط
	ضعیف

پایگاه‌های مرتبط

واژگان کلیدی

نظرسنجی