<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61882/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1398</year>
	<month>6</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2019</year>
	<month>9</month>
	<day>1</day>
</pubdate>
<volume>16</volume>
<number>2</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>آشکارسازی بدافزارها با استفاده از دسته‌بندی دنباله‌های با طول متغیر</title_fa>
	<title>Malware Detection using Classification of Variable-Length Sequences</title>
	<subject_fa>مقالات گروه امنیت اطلاعات</subject_fa>
	<subject>Paper</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;p dir=&quot;RTL&quot; style=&quot;text-align: justify;&quot;&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;در این مقاله روشی مبتنی بر گراف به&amp;shy;عنوان&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;استخراج&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;ویژگی&amp;shy; برای دنباله&amp;shy;های با طول متغیر&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;پیشنهاد&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;می&amp;shy;شود. روش پیشنهادی بدون ثابت&#8204;کردن طول دنباله&amp;shy;ها، با تعیین پر تکرارترین دستورها و گذاشتن باقی دستورها در مجموعه &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;&amp;lsquo;other&amp;rsquo;&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt; از لحاظ سرعت و حافظه صرفه&amp;shy;جویی می&amp;shy;کند. با توجه به میزان شباهت ویژگی&amp;shy;ها، هر نمونه امتیازی می&amp;shy;گیرد و از امتیازات جهت دسته&amp;shy;بندی استفاده می&amp;shy;شود. برای بهبود نتایج، دو رویکرد پیشنهاد می&#8204;شود. در رویکرد نخست، ویژگی&#8204;های استخراج&#8204;شده از روش&amp;shy;های امتیازدهی بر روی آپکد، هگزادسیمال و فراخوانی سیستمی در ورودی دسته&amp;shy;بندها ترکیب می&amp;shy;شوند. در رویکرد دوم، خروجی دسته&amp;shy;بندهای مختلف ترکیب شده و از رأی اکثریت استفاده می&amp;shy;شود. رویکرد پیشنهادی با دقت 97 % بدافزارهای دگرگون&#8204;شده رایانه&#8204;ای از مجموعه &lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;vxheaven&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt; &lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt;را نه&#8204;تنها شناسایی، بلکه دسته بدافزارها را نیز تعیین می&amp;shy;کند؛ در&#8204;&#8204;حالی&amp;shy;که روش&amp;shy;های&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt;SSD&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt; و&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;LTR&quot;&gt;&lt;span style=&quot;font-size:8.0pt;&quot;&gt; HMM&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;&lt;span style=&quot;font-family:b nazanin;&quot;&gt;&lt;span style=&quot;font-size:10.0pt;&quot;&gt; تحت شرایط یکسان با دقت 84 % و 80 % توانستند بدافزارها را شناسایی کنند.&lt;/span&gt;&lt;/span&gt;&lt;/strong&gt;&lt;br&gt;
&amp;nbsp;&lt;/p&gt;
</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;strong&gt;In this paper, a novel method based on the graph is proposed to classify the sequence of variable length&lt;/strong&gt; &lt;strong&gt;as feature extraction&lt;/strong&gt;&lt;strong&gt;.&amp;nbsp;The proposed method overcomes the problems of the traditional graph with variable length of data, without fixing length of sequences, by determining the most frequent instructions and insertion the rest of instructions on the set of &amp;ldquo;other&amp;rdquo;, save speed and memory. According to features and the similarities of them, a score is given to each sample and that is used for classification.&lt;/strong&gt; &lt;strong&gt;To improve the results, the method is not used alone, but in the two approaches, this method is combined with other existing Technique to get better results. In the first approach, which can be considered as a feature extraction,&lt;/strong&gt;&lt;strong&gt; extracted features from &lt;/strong&gt;&lt;strong&gt;scoring &lt;/strong&gt;&lt;strong&gt;techniques (Hidden Markov Model, simple substitution distance and similarity graph) on op-code sequences, hexadecimal sequences and system call&lt;/strong&gt;&lt;strong&gt;s&lt;/strong&gt;&lt;strong&gt; are combined at classifier input. The second approach consists of two steps, in the first step; the scores which obtained from each of the scoring Technique are given to the three support vector machine. The outcomes are combined according to the weight of each Technique and the final decision is taken based on the majority vote. Among the components of the support vector machine, when given a higher weight in the similarity graph method (the proposed method), the result is better, Because the similarity graph method is more accurate than the other two methods. Then, in the second section, considering the strengths and benefits of each classifier, classifier output&lt;/strong&gt;&lt;strong&gt;s&lt;/strong&gt;&lt;strong&gt; are combined and the majority voting is used.&amp;nbsp;Three methods have been tested for group combinations, including &lt;/strong&gt;&lt;strong&gt;Ensemble Averaging, Bagging, and Boosting. Ensemble Averaging&lt;/strong&gt;&lt;strong&gt; consisting of the combination of four classifiers of random forests, a support vector machine (as obtained in the previous section), &lt;/strong&gt;&lt;strong&gt;K nearest neighbors&lt;/strong&gt;&lt;strong&gt; and &lt;/strong&gt;&lt;em&gt;&lt;strong&gt;naive Bayes&lt;/strong&gt;&lt;/em&gt;&lt;strong&gt;, and the final decision is taken based on the majority vote; therefore, it is used as the proposed method. The proposed approach could detect metamorphic malware from Vxheaven set and also determines categories of malware with accuracy&lt;/strong&gt; &lt;strong&gt;of&lt;/strong&gt; &lt;strong&gt;97&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;RTL&quot;&gt;%&lt;/span&gt;&lt;/strong&gt;&lt;strong&gt;, while the SSD and HMM methods under the same conditions could detect malware with an accuracy of 84% and 80% respectively.&lt;/strong&gt;&lt;strong&gt;&lt;span dir=&quot;RTL&quot;&gt;&lt;/span&gt;&lt;/strong&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;
&lt;p&gt;&lt;/p&gt;</abstract>
	<keyword_fa>آشکارسازی بدافزارها, روش‌های مبتنی بر گراف, ترکیب دسته‌بندها, دسته‌بندی با طول متغیر, ماشین بردار پشتیبان</keyword_fa>
	<keyword>Malware Detection, Graph Techniques, Combining Classifiers, Variable Length Classification, Support vector machine</keyword>
	<start_page>137</start_page>
	<end_page>146</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1320-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Fatemeh</first_name>
	<middle_name></middle_name>
	<last_name>Hosseini</last_name>
	<suffix></suffix>
	<first_name_fa>فاطمه</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>حسینی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>fatima.hosseini@srbiau.ac.ir</email>
	<code>10031947532846007909</code>
	<orcid>10031947532846007909</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Islamic Azad University, Science and Research Branch of Tehran</affiliation>
	<affiliation_fa>دانشگاه آزاد اسلامی، واحد علوم و تحقیقات ، گروه مهندسی کامپیوتر</affiliation_fa>
	 </author>


	<author>
	<first_name>Mitra</first_name>
	<middle_name></middle_name>
	<last_name>Mirzarezaee</last_name>
	<suffix></suffix>
	<first_name_fa>میترا</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>میرزارضایی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mirzarezaee@srbiau.ac.ir</email>
	<code>10031947532846007910</code>
	<orcid>10031947532846007910</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Islamic Azad University, Science and Research Branch of Tehran</affiliation>
	<affiliation_fa>دانشگاه آزاد اسلامی، واحد علوم و تحقیقات ، گروه مهندسی کامپیوتر</affiliation_fa>
	 </author>


	<author>
	<first_name>Arash</first_name>
	<middle_name></middle_name>
	<last_name>Sharifi</last_name>
	<suffix></suffix>
	<first_name_fa>آرش</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>شریفی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>a.sharifi@srbiau.ac.ir</email>
	<code>10031947532846007911</code>
	<orcid>10031947532846007911</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Islamic Azad University, Science and Research Branch of Tehran</affiliation>
	<affiliation_fa>دانشگاه آزاد اسلامی، واحد علوم و تحقیقات ، گروه مهندسی کامپیوتر</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
