<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61882/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1395</year>
	<month>12</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2017</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<volume>13</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>استخراج ویژگی‌های ساختاری فایل‌های کامپیوتری مبتنی بر تحلیل و ارزیابی آماری</title_fa>
	<title>Feature Extraction of Computer Files Structure by Statistical Analysis </title>
	<subject_fa>مقالات پردازش داده‌های رقمی</subject_fa>
	<subject>Paper</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;p&gt;&lt;strong&gt;فایل&#8204;ها مهم&#8204;ترین منبع ارائه اطلاعات به صورت&#8204;های مختلف از قبیل متن، صوت، تصویر، صفحات وب و غیره هستند؛ تحلیل و آنالیز فایل&#8204;ها به منظور شناخت و بررسی ویژگی&#8204;ها و خصوصیات منحصربه&#8204;فرد آن&#8204;ها، یکی از مسائل بسیار مهم در زمینه حریم خصوصی، امنیت اطلاعات، شناسایی نوع فایل&#8204;ها، تحلیل ساختاری کدها و غیره می&#8204;باشد. در این مقاله با تحلیل و آنالیز آماری بر روی محتوای باینری فایل&#8204;ها مبتنی بر مدل &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;n-gram&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;، ویژگی&#8204;ها و خصوصیات مختلف یک فایل مورد بررسی قرار گرفته است. علاوه بر این به منظور کاهش حجم محاسبات و حافظه مورد نیاز مدل &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;n-gram&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;، از خوشه&#8204;بندی لغات استفاده شده و محتوای هر فایل در دو حالت کامل و بلوک&#8204;بندی شده مورد تجزیه و تحلیل قرار گرفته است. در حالت کامل ویژگی&#8204;هایی همچون آنتروپی، فراوانی، &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;TF-IDF&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;، خود همبستگی و در حالت بلوکی، ویژگی&#8204;هایی همچون نرخ آنتروپی، بعد فرکتال، فاصله و غیره بررسی شده است. نتایج بررسی&#8204;ها نشان داده ویژگی&#8204;های استخراج شده در روش اول به خوبی می&#8204;توانند خصوصیات منحصر به فرد فایل&#8204;های &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;jpg&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;، &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;mp3&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;، &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;swf&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt; و &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;html&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt; را منعکس نمایند. ویژگی&#8204;های استخراج شده در روش دوم نیز به خوبی می&#8204;توانند خصوصیات فایل&#8204;های &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;doc&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;، &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;html&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt; و &lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;pdf&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt; را منعکس نمایند.&lt;/strong&gt;&lt;/p&gt;
</abstract_fa>
	<abstract>&lt;p&gt;&lt;strong&gt;Files are the most important sources of information presenting in various formats such as texts, audio, video, images, web pages, etc. &amp;hellip;; (in-depth) analysis of files for the purpose of recognition and investigating their unique properties (or characteristics) is one of the most significant issues in the field of personal security safety, information security, file-type identification, codes structuration analysis etc&amp;hellip;. Statistical analytic methodology of working on the binary files contents based on the n-gram model has been opted for in the present paper in order to full investigate all different aspects of a file&amp;rsquo;s range of characteristics. Moreover, to reduce down the calculations volume and the n-gram model peculiar to the needed amount of memory, use has been made of word clustering. Later on analysis has been conducted on both files&amp;rsquo; contents in two states of &amp;ldquo;blocking&amp;rdquo; and &amp;ldquo;full&amp;rdquo;: it is to be noted that in the &amp;ldquo;full&amp;rdquo; case such characteristics as Chi-square, Auto-correlation, Weighted term frequency-Inverse document frequency (TF-IDF), Fractal dimension etc &amp;hellip; have been brought under comprehensive study; while in the &amp;ldquo;blocking&amp;rdquo; case, other properties like the entropy rate, the distance, etc &amp;hellip; have been delved into. The gained results indicate that the extracted characteristics in the first method could well easily reflect the unique properties belonging to jpg, mp3, swf and html files; and in the second method, are able to clearly well reflect doc, html and pdf files properties.&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;&lt;/p&gt;
</abstract>
	<keyword_fa>فایل‌های کامپیوتری, مدل n-gram, خوشه‌بندی لغات, ضریب خود همبستگی, TF-IDF, نرخ آنتروپی, فاصله کانبرا</keyword_fa>
	<keyword>Files, n-gram model, word clustering, Canberra distance, entropy rate, Fractal dimension</keyword>
	<start_page>43</start_page>
	<end_page>62</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-359-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Majid</first_name>
	<middle_name></middle_name>
	<last_name>Vafaei Jahan</last_name>
	<suffix></suffix>
	<first_name_fa>مجید</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>وفایی جهان</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>vafaeija@yahoo.com</email>
	<code>10031947532846004955</code>
	<orcid>10031947532846004955</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Islamic azad university mashhad branch</affiliation>
	<affiliation_fa>دانشگاه آزاد اسلامی مشهد</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
