دانشگاه صنعتی ارومیه
چکیده: (39 مشاهده)
یادگیری تقویتی به آموزش مدلهای یادگیری ماشین برای اتخاذ تصمیمات متوالی اشاره میکند که در آن یک عامل از طریق تعامل با محیط، آموزش دیده، نتایج این تعامل را مشاهده کرده و بر این اساس، پاداش مثبت یا منفی دریافت میکند. یادگیری تقویتی کاربردهای زیادی برای سیستمهای چند عاملی به خصوص در محیطهای پویا و ناشناخته دارد. با این حال، اکثر الگوریتمهای یادگیری تقویتی چند عاملی با مشکلاتی همچون پیچیدگی محاسباتی نمایی برای محاسبه فضای حالت مشترک مواجه هستند که منجر به عدم مقیاسپذیری الگوریتمها درمسائل چند عاملی واقعی میشود. کاربردهای یادگیری تقویتی چند عاملی را میتوان از فوتبال رباتها، شبکهها، محاسبات ابری، زمانبندی شغل تا اعزام نیروی واکنشی دستهبندی کرد. در این مقاله یک الگوریتم جدید به نام انتقال دانش تنظیمشده برای یادگیری تقویتی چند عاملی (RKT-MARL) معرفی میشود که براساس مدل تصمیمگیری مارکوف کار میکند. این الگوریتم برخلاف روشهای یادگیری تقویتی سنتی، مفاهیم تعاملات پراکنده و انتقال دانش را برای رسیدن به تعادل بین عاملها استفاده میکند. علاوه بر این، RKT-MARL از مکانیزم مذاکره برای یافتن مجموعه تعادل و از روش حداقل واریانس برای انتخاب بهترین عمل در مجموعه تعادل به دست آمده استفاده میکند. همچنین الگوریتم پیشنهادی، دانش مقادیر حالت-عمل را در میان عاملهای مختلف انتقال میدهد. از طرفی، الگوریتم RKT-MARL مقادیر Q را در حالتهای هماهنگی به عنوان ضریبی از اطلاعات محیطی جاری و دانش قبلی مقداردهی میکند. به منظور ارزیابی عملکرد روش پیشنهادی، یک گروه از آزمایشات بر روی پنج بازی جهانی انجامشده و نتایج حاصل بیانگر همگرایی سریع و مقیاسپذیری بالا در RKT-MARL است.
شمارهی مقاله: 10
نوع مطالعه:
پژوهشي |
موضوع مقاله:
مقالات پردازش دادههای رقمی دریافت: 1398/5/11 | پذیرش: 1402/9/20 | انتشار: 1403/2/6 | انتشار الکترونیک: 1403/2/6