%0 Journal Article %A Vafaei Jahan, Majid %T Feature Extraction of Computer Files Structure by Statistical Analysis %J Signal and Data Processing %V 13 %N 4 %U http://jsdp.rcisp.ac.ir/article-1-141-fa.html %R 10.18869/acadpub.jsdp.13.4.43 %D 2017 %K Files, n-gram model, word clustering, Canberra distance, entropy rate, Fractal dimension, %X فایل‌ها مهم‌ترین منبع ارائه اطلاعات به صورت‌های مختلف از قبیل متن، صوت، تصویر، صفحات وب و غیره هستند؛ تحلیل و آنالیز فایل‌ها به منظور شناخت و بررسی ویژگی‌ها و خصوصیات منحصربه‌فرد آن‌ها، یکی از مسائل بسیار مهم در زمینه حریم خصوصی، امنیت اطلاعات، شناسایی نوع فایل‌ها، تحلیل ساختاری کدها و غیره می‌باشد. در این مقاله با تحلیل و آنالیز آماری بر روی محتوای باینری فایل‌ها مبتنی بر مدل n-gram، ویژگی‌ها و خصوصیات مختلف یک فایل مورد بررسی قرار گرفته است. علاوه بر این به منظور کاهش حجم محاسبات و حافظه مورد نیاز مدل n-gram، از خوشه‌بندی لغات استفاده شده و محتوای هر فایل در دو حالت کامل و بلوک‌بندی شده مورد تجزیه و تحلیل قرار گرفته است. در حالت کامل ویژگی‌هایی همچون آنتروپی، فراوانی، TF-IDF، خود همبستگی و در حالت بلوکی، ویژگی‌هایی همچون نرخ آنتروپی، بعد فرکتال، فاصله و غیره بررسی شده است. نتایج بررسی‌ها نشان داده ویژگی‌های استخراج شده در روش اول به خوبی می‌توانند خصوصیات منحصر به فرد فایل‌های jpg، mp3، swf و html را منعکس نمایند. ویژگی‌های استخراج شده در روش دوم نیز به خوبی می‌توانند خصوصیات فایل‌های doc، html و pdf را منعکس نمایند. %> http://jsdp.rcisp.ac.ir/article-1-141-fa.pdf %P 43-62 %& 43 %! Feature Extraction of Computer Files Structure by Statistical Analysis %9 Research %L A-10-359-1 %+ Islamic azad university mashhad branch %G eng %@ 2538-4201 %[ 2017