دوره 20، شماره 4 - ( 12-1402 )                   جلد 20 شماره 4 صفحات 160-141 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Alavi N, Tahmoresnezhad J. Regularized Knowledge Transfer for Multi-Agent Reinforcement Learning. JSDP 2024; 20 (4) : 10
URL: http://jsdp.rcisp.ac.ir/article-1-1056-fa.html
علوی نیلوفر، طهمورث نژاد جعفر. انتقال دانش تنظیم شده برای یادگیری تقویتی چندعاملی. پردازش علائم و داده‌ها. 1402; 20 (4) :141-160

URL: http://jsdp.rcisp.ac.ir/article-1-1056-fa.html


دانشگاه صنعتی ارومیه
چکیده:   (76 مشاهده)
یادگیری تقویتی به آموزش مدل‌های یادگیری ماشین برای اتخاذ تصمیمات متوالی اشاره می­کند که در آن یک عامل از طریق تعامل با محیط، آموزش دیده، نتایج این تعامل را مشاهده کرده و بر این اساس، پاداش مثبت یا منفی دریافت می­کند. یادگیری تقویتی کاربردهای زیادی برای سیستم­های چند عاملی به خصوص در محیط­های پویا و ناشناخته دارد. با این حال، اکثر الگوریتم­های یادگیری تقویتی چند عاملی با مشکلاتی همچون پیچیدگی محاسباتی نمایی برای محاسبه فضای حالت مشترک مواجه هستند که منجر به عدم مقیاس­پذیری الگوریتم­ها درمسائل چند عاملی واقعی می­شود. کاربردهای یادگیری تقویتی چند عاملی را می­توان از فوتبال ربات‌ها، شبکه­ها، محاسبات ابری، زمانبندی شغل تا اعزام نیروی واکنشی دسته­بندی کرد. در این مقاله یک الگوریتم جدید به نام انتقال دانش تنظیم‌شده برای یادگیری تقویتی چند عاملی (RKT-MARL) معرفی می­شود که براساس مدل تصمیم­گیری مارکوف کار می­کند. این الگوریتم برخلاف روش­های یادگیری تقویتی سنتی، مفاهیم تعاملات پراکنده و انتقال دانش را برای رسیدن به تعادل بین عامل­ها استفاده می­کند. علاوه بر این، RKT-MARL از مکانیزم مذاکره برای یافتن مجموعه تعادل و از روش حداقل واریانس برای انتخاب بهترین عمل در مجموعه تعادل به دست آمده استفاده می­کند. همچنین الگوریتم پیشنهادی، دانش مقادیر حالت-عمل را در میان عامل­های مختلف انتقال می­دهد. از طرفی، الگوریتم RKT-MARL مقادیر Q را در حالت­های هماهنگی به عنوان ضریبی از اطلاعات محیطی جاری و دانش قبلی مقداردهی می­کند. به منظور ارزیابی عملکرد روش پیشنهادی، یک گروه از آزمایشات بر روی پنج بازی جهانی انجام­شده و نتایج حاصل بیانگر همگرایی سریع و مقیاس­پذیری بالا در RKT-MARL است.
شماره‌ی مقاله: 10
متن کامل [PDF 1016 kb]   (55 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش داده‌های رقمی
دریافت: 1398/5/11 | پذیرش: 1402/9/20 | انتشار: 1403/2/6 | انتشار الکترونیک: 1403/2/6

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.