AU - Daneshpour, Negin AU - mirabolghasemi, Seyedeh fatemeh TI - Missing Data Imputation in Multivariate Time Series Data PT - JOURNAL ARTICLE TA - jsdp JN - jsdp VO - 19 VI - 2 IP - 2 4099 - http://jsdp.rcisp.ac.ir/article-1-1104-fa.html 4100 - http://jsdp.rcisp.ac.ir/article-1-1104-fa.pdf SO - jsdp 2 AB  - داده­های سری زمانی چندمتغیره در زمینه‌­های مختلف مانند بیوانفورماتیک، زیست­‌شناسی، ژنتیک، نجوم، علوم جغرافیایی و امور مالی یافت می‌­شوند. بسیاری از این مجموعه‌داده­‌ها دارای داده گمشده هستند. جایگذاری داده­‌های گمشده سری زمانی چندمتغیره، یکی از مباحث چالش برانگیز است و قبل از فرایند یادگیری یا پیش­بینی سری­‌های زمانی باید با دقت مورد توجه و بررسی قرار گیرد. تحقیقات فراوانی در استفاده از روش‌های مختلف برای جایگذاری داده‌­های گمشده سری زمانی انجام شده ­است که به‌طورمعمول شامل روش‌­های تجزیه و تحلیل و مدل­‌سازی­‌های ساده در کاربردهای خاص و یا سری­‌های زمانی تک‌متغیره هستند. در این مقاله یک نسخه بهبود‌یافته از درون‌یابی معکوس فاصله وزن‌دار برای جایگذاری داده‌­های گمشده پیشنهاد شده‌ است. روش درون‌یابی معکوس فاصله وزن‌دار دو محدودیت اساسی دارد: 1) یافتن بهترین نقاط نزدیک­تر به داده‌­های گمشده 2) انتخاب توان تأثیر بهینه برای همسایگان داده گمشده. برای بهبود روش درون‌یابی، از خوشه­‌بندی k-means استفاده شده ‌است، تا همسایه‌­های با بیشترین شباهت به الگوی داده­ای انتخاب شوند. از آنجا که میزان تأثیر هر یک از همسایه‌­ها بر روی داده گمشده متفاوت است، از الگوریتم جستجوی فاخته برای تعیین توان تأثیر همسایگی استفاده می­شود. برای ارزیابی عملکرد روش پیشنهادی، از پنج معیار ارزیابی شناخته‌شده ‌استفاده می­شود. نتایج تجربی بر روی چهار مجموعه‌داده UCI با درصدهای مختلف گمشدگی مورد بررسی قرار گرفته و در‌مجموع الگوریتم پیشنهادی نسبت به سه روش مقایسه‌­ای دیگر عملکرد بهتر و به‌طور میانگین حدود 05/0 خطای RMSE، 04/0 خطای MAE، 003/0 خطای MSE و 5 درصد خطای MAPE داشته است. میزان همبستگی داده‌های واقعی و مقدار برآورد‌شده در روش پیشنهادی بسیار مطلوب و در حدود 99 درصد است. CP - IRAN IN - Shahid Rajaee Teacher Training University, Tehran, Iran LG - eng PB - jsdp PG - 39 PT - Research YR - 2022