<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Signal and Data Processing</title>
<title_fa>پردازش علائم و داده‌ها</title_fa>
<short_title>JSDP</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://jsdp.rcisp.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2538-4201</journal_id_issn>
<journal_id_issn_online>2538-421X</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.66224/jsdp</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid>1</journal_id_sid>
<journal_id_nlai>8888</journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1402</year>
	<month>12</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2024</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<volume>20</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>انتقال دانش تنظیم شده برای یادگیری تقویتی  چندعاملی</title_fa>
	<title>Regularized Knowledge Transfer for Multi-Agent Reinforcement Learning</title>
	<subject_fa>مقالات پردازش داده‌های رقمی</subject_fa>
	<subject>Paper</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span style=&quot;direction:rtl&quot;&gt;&lt;span style=&quot;unicode-bidi:embed&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;یادگیری تقویتی به آموزش مدل&#8204;های یادگیری ماشین برای اتخاذ تصمیمات متوالی اشاره می&amp;shy;کند که در آن یک عامل از طریق تعامل با محیط، آموزش دیده، نتایج این تعامل را مشاهده کرده و بر این اساس، پاداش&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; مثبت یا منفی دریافت می&amp;shy;کند. یادگیری تقویتی کاربردهای زیادی برای سیستم&amp;shy;های چندعاملی &amp;nbsp;به خصوص در محیط&amp;shy;های پویا و ناشناخته دارد. با این حال، بیش&amp;shy;تر الگوریتم&amp;shy;های یادگیری تقویتی چندعاملی &amp;nbsp;با مشکلاتی همچون پیچیدگی محاسباتی نمایی برای محاسبه فضای حالت مشترک مواجه هستند که منجر به عدم مقیاس&amp;shy;پذیری الگوریتم&amp;shy;ها درمسائل چندعاملی &amp;nbsp;واقعی می&amp;shy;شود. کاربردهای یادگیری تقویتی چندعاملی &amp;nbsp;را می&amp;shy;توان از فوتبال ربات&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&#8204;ها&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;، شبکه&amp;shy;ها، محاسبات ابری، زمانبندی شغل تا اعزام نیروی واکنشی دسته&amp;shy;بندی کرد. در این مقاله یک الگوریتم جدید به نام انتقال دانش تنظیم&#8204;شده برای یادگیری تقویتی چندعاملی &amp;nbsp;(&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;RKT-MARL&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;) معرفی می&amp;shy;شود که براساس مدل تصمیم&amp;shy;گیری مارکوف کار می&amp;shy;کند. این الگوریتم برخلاف روش&amp;shy;های یادگیری تقویتی سنتی، مفاهیم تعاملات پراکنده و انتقال دانش را برای رسیدن به تعادل بین عامل&amp;shy;ها استفاده می&amp;shy;کند. علاوه&#8204;بر این، &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;RKT-MARL&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; از سازوکار مذاکره برای یافتن مجموعه تعادل و از روش کمینه واریانس برای انتخاب بهترین عمل در مجموعه تعادل به&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Cambria&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&amp;shy;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;دست&amp;shy;آمده استفاده می&amp;shy;کند. همچنین الگوریتم پیشنهادی، دانش مقادیر حالت-عمل را در میان عامل&amp;shy;های مختلف انتقال می&amp;shy;دهد. از طرفی، الگوریتم &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;RKT-MARL&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt; مقادیر &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;Q&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;FA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;را در حالت&amp;shy;های هماهنگی به عنوان ضریبی از اطلاعات محیطی جاری و دانش قبلی مقداردهی می&amp;shy;کند. &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;به&amp;shy;منظور ارزیابی عملکرد روش پیشنهادی، یک گروه از آزمایش&amp;shy;ها بر روی پنج بازی جهانی انجام&amp;shy;شده و نتایج حاصل بیانگر همگرایی سریع و مقیاس&amp;shy;پذیری بالا در &lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:8.0pt&quot;&gt;RKT-MARL&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;&#8204;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;b&gt;&lt;span lang=&quot;AR-SA&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;B Nazanin&amp;quot;&quot;&gt;است.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span dir=&quot;LTR&quot; style=&quot;font-size:10.0pt&quot;&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;Reinforcement learning (RL) refers to the training of machine learning models to make a sequence of decisions on which an agent learns by interacting with its environment, observing the results of interactions and receiving a positive or negative reward, accordingly. RL has many applications for multi-agent systems, especially in dynamic and unknown environments. However, most multi-agent reinforcement learning (MARL) algorithms suffer from some problems specifically the exponential computational complexity to calculate the joint state-action space, which leads to the lack of scalability of algorithms in realistic multi-agent problems. &lt;span class=&quot;fontstyle01&quot; style=&quot;font-family:&amp;quot;CMTI12&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&lt;span style=&quot;font-style:normal&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;Applications of MARL &lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;can be categorized&lt;/span&gt;&lt;/b&gt;&lt;span class=&quot;fontstyle01&quot; style=&quot;font-family:&amp;quot;CMTI12&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&lt;span style=&quot;font-style:normal&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt; from robot soccer,&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;b&gt; &lt;/b&gt;&lt;span class=&quot;fontstyle01&quot; style=&quot;font-family:&amp;quot;CMTI12&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&lt;span style=&quot;font-style:normal&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;networks, cloud computing, job scheduling,&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;b&gt; &lt;/b&gt;&lt;span class=&quot;fontstyle01&quot; style=&quot;font-family:&amp;quot;CMTI12&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&lt;span style=&quot;font-style:normal&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;and to optimal reactive power dispatch.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;In the area of reinforcement learning algorithms, there are serious challenges such as the lack of application of equilibrium-based algorithms in practice and high computational complexity to find equilibrium.&amp;nbsp; On the other hand, since agents have no concept of equilibrium policies,&lt;span class=&quot;fontstyle01&quot; style=&quot;font-family:&amp;quot;CMTI12&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&lt;span style=&quot;font-style:normal&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt; they tend to act aggressively toward their&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;b&gt; &lt;/b&gt;&lt;span class=&quot;fontstyle01&quot; style=&quot;font-family:&amp;quot;CMTI12&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;span style=&quot;color:black&quot;&gt;&lt;span style=&quot;font-weight:normal&quot;&gt;&lt;span style=&quot;font-style:normal&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;goals, which it results the high probability of collisions.&lt;/span&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;b&gt;&lt;span style=&quot;font-size:8.0pt&quot;&gt;&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&lt;span style=&quot;font-size:12pt&quot;&gt;&lt;span style=&quot;text-justify:kashida&quot;&gt;&lt;span style=&quot;text-kashida:0%&quot;&gt;&lt;span style=&quot;font-family:&amp;quot;Times New Roman&amp;quot;,&amp;quot;serif&amp;quot;&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;Consequently, in this paper, a novel algorithm called Regularized Knowledge Transfer for Multi-Agent Reinforcement Learning (RKT-MARL) is presented that relies on Markov decision process (MDP) model. RKT-MARL unlike the traditional reinforcement learning methods exploits the sparse interactions and knowledge transfer to achieve an equilibrium across agents. Moreover, RKT-MARL benefits from negotiation to find the equilibrium set. RKT-MARL uses the minimum variance method to select the best action in the equilibrium set, and transfers the knowledge of state-action values across various agents.&lt;/span&gt;&lt;/b&gt; &lt;b&gt;&lt;span style=&quot;font-size:10.0pt&quot;&gt;Also, RKT-MARL initializes the Q-values in coordinate states as coefficients of current environmental information and previous knowledge. In order to evaluate the performance of our proposed method, groups of experiments are conducted on five grid world games and the results show the fast convergence and high scalability of RKT-MARL. Therefore, the fast convergence of our proposed method indicates that the agents quickly solve the problem of reinforcement learning and approach to their goal.&lt;/span&gt;&lt;/b&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;
&amp;nbsp;&lt;/div&gt;</abstract>
	<keyword_fa>یادگیری تقویتی چند عاملی, انتقال دانش, تعادل‌های متا و نش, تنظیم‌پذیری, تعاملات پراکنده, مذاکره بین عامل‌ها.</keyword_fa>
	<keyword>Multi-agent reinforcement learning, Knowledge transfer, Meta and Nash equilibriums, Regularization, Sparse interactions, Agents negotiations.</keyword>
	<start_page>141</start_page>
	<end_page>160</end_page>
	<web_url>http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1493-4&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Niloofar</first_name>
	<middle_name></middle_name>
	<last_name>Alavi</last_name>
	<suffix></suffix>
	<first_name_fa>نیلوفر</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>علوی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>nilooalavi504@it.uut.ac.ir</email>
	<code>100319475328460012588</code>
	<orcid>100319475328460012588</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Urmia University of Technology</affiliation>
	<affiliation_fa>دانشگاه صنعتی ارومیه</affiliation_fa>
	 </author>


	<author>
	<first_name>Jafar</first_name>
	<middle_name></middle_name>
	<last_name>Tahmoresnezhad</last_name>
	<suffix></suffix>
	<first_name_fa>جعفر</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>طهمورث نژاد</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>j.tahmores@it.uut.ac.ir</email>
	<code>100319475328460012589</code>
	<orcid>100319475328460012589</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Urmia University of Technology</affiliation>
	<affiliation_fa>دانشگاه صنعتی ارومیه</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
