استخراج ویژگی‌های ساختاری فایل‌های کامپیوتری مبتنی بر تحلیل و ارزیابی آماری

وفایی جهان, مجید

doi:10.18869/acadpub.jsdp.13.4.43

***************«بسم الله الرحمن الرحیم» نشریه علمی «پردازش علائم و داده‌ها» با مجوز رسمی از کمیسیون نشریات وزارت علوم، تحقیقات و فناوری، صاحب امتیاز: پژوهشگاه توسعه فناوری‌های پیشرفته ***************

Signal and Data Processing Journal A scientific journal officially licensed by the Commission for Scientific Publications of the (MSRT). Publisher: Research Ceter for Developmen of Technologies

EN FA

دوره 13، شماره 4 - ( 12-1395 ) جلد 13 شماره 4 صفحات 62-43 | برگشت به فهرست نسخه ها

‎ 10.18869/acadpub.jsdp.13.4.43

Mendeley

Zotero

RefWorks

Vafaei Jahan M. Feature Extraction of Computer Files Structure by Statistical Analysis . JSDP 2017; 13 (4) :43-62
URL: http://jsdp.rcisp.ac.ir/article-1-141-fa.html

وفایی جهان مجید. استخراج ویژگی‌های ساختاری فایل‌های کامپیوتری مبتنی بر تحلیل و ارزیابی آماری. پردازش علائم و داده‌ها. 1395; 13 (4) :43-62

URL: http://jsdp.rcisp.ac.ir/article-1-141-fa.html

استخراج ویژگی‌های ساختاری فایل‌های کامپیوتری مبتنی بر تحلیل و ارزیابی آماری

مجید وفایی جهان^*

دانشگاه آزاد اسلامی مشهد

چکیده: (7447 مشاهده)

فایل‌ها مهم‌ترین منبع ارائه اطلاعات به صورت‌های مختلف از قبیل متن، صوت، تصویر، صفحات وب و غیره هستند؛ تحلیل و آنالیز فایل‌ها به منظور شناخت و بررسی ویژگی‌ها و خصوصیات منحصربه‌فرد آن‌ها، یکی از مسائل بسیار مهم در زمینه حریم خصوصی، امنیت اطلاعات، شناسایی نوع فایل‌ها، تحلیل ساختاری کدها و غیره می‌باشد. در این مقاله با تحلیل و آنالیز آماری بر روی محتوای باینری فایل‌ها مبتنی بر مدل n-gram، ویژگی‌ها و خصوصیات مختلف یک فایل مورد بررسی قرار گرفته است. علاوه بر این به منظور کاهش حجم محاسبات و حافظه مورد نیاز مدل n-gram، از خوشه‌بندی لغات استفاده شده و محتوای هر فایل در دو حالت کامل و بلوک‌بندی شده مورد تجزیه و تحلیل قرار گرفته است. در حالت کامل ویژگی‌هایی همچون آنتروپی، فراوانی، TF-IDF، خود همبستگی و در حالت بلوکی، ویژگی‌هایی همچون نرخ آنتروپی، بعد فرکتال، فاصله و غیره بررسی شده است. نتایج بررسی‌ها نشان داده ویژگی‌های استخراج شده در روش اول به خوبی می‌توانند خصوصیات منحصر به فرد فایل‌های jpg، mp3، swf و html را منعکس نمایند. ویژگی‌های استخراج شده در روش دوم نیز به خوبی می‌توانند خصوصیات فایل‌های doc، html و pdf را منعکس نمایند.

واژه‌های کلیدی: فایل‌های کامپیوتری، مدل n-gram، خوشه‌بندی لغات، ضریب خود همبستگی، TF-IDF، نرخ آنتروپی، فاصله کانبرا

متن کامل [PDF 4938 kb] (1895 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش داده‌های رقمی
دریافت: 1392/4/12 | پذیرش: 1395/7/14 | انتشار: 1396/3/16 | انتشار الکترونیک: 1396/3/16

ارسال پیام به نویسنده مسئول

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.