<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.66224/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1402</year>
	<month>12</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2024</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<volume>20</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>بیشینه سازی امتیاز در بازی تصادفی match-3  با استفاده از یادگیری تقویتی عمیق</title_fa>
	<title>Maximize Score in stochastic match-3 games using reinforcement learning</title>
	<subject_fa>مقالات پردازش داده‌های رقمی</subject_fa>
	<subject>Paper</subject>
	<content_type_fa>كاربردي</content_type_fa>
	<content_type>Applicable</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;بازی&#8204;های رایانه&#8204;ای در سال&#8204;های اخیر نقش مهمی در توسعۀ هوش مصنوعی داشته&#8204;اند. روش&#8204;های گوناگون از جمله روش&#8204;های مبتنی&#8204;بر قوانین، جستجوی درختی و&amp;nbsp; یادگیری ماشین (یادگیری نظارت&#8204;شده و یادگیری تقویتی) برای ایجاد عامل&#8204;های هوشمند در بازی&#8204;های گوناگون توسعه یافته&#8204;اند. از میان این پژوهش&#8204;ها، می&#8204;توان به پژوهش&#8204;های &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Deep Blue&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; در بازی شطرنج و &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;AlphaGo&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; در بازی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Go&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; اشاره کرد. &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;AlphaGo&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; اولین برنامۀ رایانه&#8204;ای است که یک بازی&#8204;کن حرفه&#8204;ای انسانی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Go&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; را شکست داد. همچنین، &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Deep Blue&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; یک سامانۀ رایانه&#8204;ای حرفه&#8204;ای شطرنج و نخستین برنامه است که در مقابل یک قهرمان جهان، برنده می&#8204;شود.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;در این مقاله، ما بر روی بازی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;match-3&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; تمرکز داریم، که یک بازی محبوب در تلفن&#8204;های همراه و شامل یک فضای حالت تصادفی بسیار بزرگ و تابع پاداش تصادفی است که یادگیری را دشوار می&#8204;کند. در گذشته، پژوهش&#8204;های زیادی در مورد بازی&#8204;های گوناگون، از جمله &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;match-3&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;، انجام شده&#8204;است. هدف اصلی این پژوهش&#8204;ها به&#8204;طور کلی بازی بهینه یا پیش&#8204;بینی دشواری مراحل طراحی&#8204;شده برای بازی&#8204;کنان انسانی بوده&#8204;است. پیش&#8204;بینی دشواری مراحل به توسعه&#8204;دهندگان بازی کمک می&#8204;کند تا کیفیت بازی&#8204;های خود را بهبود بخشند و تجربۀ کاربری بهتری فراهم کنند. در این مقاله، یک عامل هوشمند بر اساس یادگیری تقویتی عمیق ارائه شده&#8204;که هدف آن به بیشینه رساندن امتیاز در بازی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;match-3&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; است. یادگیری تقویتی یکی از شاخه&#8204;های یادگیری ماشین است که عامل از طریق تجربیات خود از تعامل با محیط، سیاست بهینه را برای انتخاب اعمال در فضاهای گوناگون یاد می&#8204;گیرد. در یادگیری تقویتی عمیق، الگوریتم&#8204;های یادگیری تقویتی به&#8204;همراه شبکه&#8204;های عصبی عمیق استفاده می&#8204;شوند.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;در روش پیشنهادی، سازوکار&#8204;های نگاشت گوناگونی برای فضای اعمال و فضای حالت استفاده شده&#8204;است. همچنین، یک ساختار نوآورانه از شبکه&#8204;های عصبی سفارشی&#8204;سازی&#8204;شده برای محیط بازی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;match-3&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; پیشنهاد شده&#8204;است تا قابلیت یادگیری فضای حالت بزرگ را به&#8204;دست&#8204;آورد. نوآوری&#8204;های این مقاله را می&#8204;توان بدین شرح خلاصه کرد: روی&#8204;کردی برای نگاشت از فضای اعمال به یک ماتریس دوبعدی ارائه شده که امکان جداکردن اعمال مجاز و غیرمجاز را تسهیل می&#8204;کند. یک روش برای نگاشت از فضای حالت به ورودی شبۀ عصبی عمیق طراحی شده که با کاهش عمق صافی&#8204;های پیچشی، فضای ورودی را کاهش داده و این&#8204;گونه فرایند یادگیری را بهبود می&#8204;بخشد. همچنین، تابع پاداش از طریق جداکردن پاداش&#8204;های تصادفی از پاداش&#8204;های قطعی، فرایند یادگیری را پایدار کرده&#8204;است. مقایسۀ روش پیشنهادی با سایر روش&#8204;های موجود، از جمله &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;PPO&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;، &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;DQN&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;، &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;A3C&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;، روش حریصانه و عوامل انسانی، نشان&#8204;دهندۀ عملکرد برتر روش پیشنهادی در بازی &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;match-3&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; است.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;Computer games have played an important role in the development of artificial intelligence in recent years. Throughout the history of artificial intelligence, computer games have been a suitable test environment for evaluating new approaches and algorithms to artificial intelligence. Different methods, including rule-based methods, tree search methods, and machine learning methods (supervised learning and reinforcement learning) have been developed to create intelligent agents in different games. Games have been used as a suitable environment for trial and error, testing different artificial intelligence ideas and algorithms. Among these researches, we can mention the research of Deep Blue in the chess game and AlphaGo in the game Go. AlphaGo is the first computer program to defeat an expert human Go player. Also, Deep Blue is a chess-playing expert system is the first computer program to win a match, against a world champion. &lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;In this paper, we focus on the match-3 game. The match-3 game is a popular game in cell phones, which consists of a very large random state space which makes learning difficult. It also has random reward function which makes learning unstable. Many researches have been done in the past on different games, including match-3. The aim of these researches has generally been to play optimally or to predict the difficulty of stages designed for human players. Predicting the difficulty of stages helps game developers to improve the quality of their games and provide a better experience for users. Based on the approach used, past works can be divided into three main categories including search-based methods, machine learning methods and heuristic methods. &lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;In this paper, an intelligent agent based on deep reinforcement learning is presented, whose goal is to maximize the score in the match-3 game. Reinforcement learning is one of the approaches that has received a lot of attention recently. Reinforcement learning is one of the branches of machine learning in which the agent learns the optimal policy for choosing actions in different spaces through its experiences of interacting with the environment. In deep reinforcement learning, reinforcement learning algorithms are used along with deep neural networks.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;In the proposed method, different mapping mechanisms for action space and state space are used. Also, a novel structure of neural network customized for the match-3 game environment has been proposed to achieve the ability to learn large state space. The contributions of this article can be summarized as follow. An approach for mapping the action space to a two-dimensional matrix is presented in which it is possible to easily separate valid and invalid actions. An approach has been designed to map the state space to the input of the deep neural network, which reduces the input space by reducing the depth of the convolutional filter and thus improves the learning process&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;RTL&quot; lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt; The reward function has made the learning process stable by separating random rewards from deterministic rewards.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;The comparison of the proposed method with other existing methods, including PPO, DQN, A3C, greedy method and human agents shows the superior performance of the proposed method in the match-3 game.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;</abstract>
	<keyword_fa>یادگیری تقویتی عمیق, بازی تصادفی, match-3, فضای حالت بزرگ</keyword_fa>
	<keyword>deep reinforcement learning, random game, match-3, large state space</keyword>
	<start_page>129</start_page>
	<end_page>140</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1930-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Mehdy</first_name>
	<middle_name></middle_name>
	<last_name>Roayaei Ardakany</last_name>
	<suffix></suffix>
	<first_name_fa>مهدی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>رعایائی اردکانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mroayaei@modares.ac.ir</email>
	<code>100319475328460012586</code>
	<orcid>100319475328460012586</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Tarbiat Modares University</affiliation>
	<affiliation_fa>دانشگاه تربیت مدرس</affiliation_fa>
	 </author>


	<author>
	<first_name>Ali</first_name>
	<middle_name></middle_name>
	<last_name>Afroughrh</last_name>
	<suffix></suffix>
	<first_name_fa>علی</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>افروغه</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>ali74afrougheh@gmail.com</email>
	<code>100319475328460012587</code>
	<orcid>100319475328460012587</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Tarbiat Modares University</affiliation>
	<affiliation_fa>دانشگاه تربیت مدرس</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
