فایلها مهمترین منبع ارائه اطلاعات به صورتهای مختلف از قبیل متن، صوت، تصویر، صفحات وب و غیره هستند؛ تحلیل و آنالیز فایلها به منظور شناخت و بررسی ویژگیها و خصوصیات منحصربهفرد آنها، یکی از مسائل بسیار مهم در زمینه حریم خصوصی، امنیت اطلاعات، شناسایی نوع فایلها، تحلیل ساختاری کدها و غیره میباشد. در این مقاله با تحلیل و آنالیز آماری بر روی محتوای باینری فایلها مبتنی بر مدل n-gram، ویژگیها و خصوصیات مختلف یک فایل مورد بررسی قرار گرفته است. علاوه بر این به منظور کاهش حجم محاسبات و حافظه مورد نیاز مدل n-gram، از خوشهبندی لغات استفاده شده و محتوای هر فایل در دو حالت کامل و بلوکبندی شده مورد تجزیه و تحلیل قرار گرفته است. در حالت کامل ویژگیهایی همچون آنتروپی، فراوانی، TF-IDF، خود همبستگی و در حالت بلوکی، ویژگیهایی همچون نرخ آنتروپی، بعد فرکتال، فاصله و غیره بررسی شده است. نتایج بررسیها نشان داده ویژگیهای استخراج شده در روش اول به خوبی میتوانند خصوصیات منحصر به فرد فایلهای jpg، mp3، swf و html را منعکس نمایند. ویژگیهای استخراج شده در روش دوم نیز به خوبی میتوانند خصوصیات فایلهای doc، html و pdf را منعکس نمایند.
بازنشر اطلاعات | |
![]() |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |