действия: пчелиный алгоритм, муравьиный алгоритм;
награда: «+5» за увеличение ресурсов, «+1» за исследование среды;
2. выбор оптимального маршрута:
состояние среды: относительная цена маршрута;
действия: алгоритм поиска А*, алгоритм Дейкстры;
награда: «+5» за построение более «дешевого» маршрута;
3. боевое взаимодействие:
состояние среды: общая боевая сила противников, находящихся в зоне видимости, общая сила союзных агентов, находящихся в зоне видимости, алгоритм светлячка;
действие: отступление, атака;
награда: «+5» за уничтожение агента противника, «-5» за потерю своего агента;
4. распределение ролей:
состояние среды: мирное время (исследование), военное время;
действие: роль разведчика, роль добытчика ресурсов, роль солдата;
награда: «+5» за победу в раунде, «-5» за поражение, «+2» за получение ресурса, «+2» за уничтожение агента противника;
5. переход от исследования к нападению:
состояние среды: процент исследованной территории, отношение агрессивного поведения противника к общему числу столкновений;
действия: переход к нападению;
награда: «+5» за победу в раунде, «-5» за поражение.
Результаты экспериментов.
Обучение проводится в два этапа. На первом этапе проходит обучение нейронных сетей для каждого отдельного действия в специально смоделированных условиях. Второй этап состоит в обучении нейронной сети, которая отвечает за переход от общей тактики исследования/сбора ресурсов к нападению. Обучение организовано путем проведения сражений против моделей-противников Cwega, Spock73 и RobotClass, распространяемых на официальном форуме игры и являющихся, соответственно, победителями соревнований в 2012, 2014 и 2015 годах. Каждый раунд проходит на новой игровой территории. Построенные нейронные сети сравниваются по итогам игры с этими моделями.
Рисунок 2. Графики средней награды в задачах.
Заключение
В данной работе рассмотрена задача построения модели, осуществляющей групповое управление автономными агентами в мультиагентной системе на примере игры «Battlecode». Для решения задачи оптимизации управления и адаптации модели к динамично изменяющейся среде предложено обучение с подкреплением.
Сравнение результатов для различных действий и их влияние на итоговый результат раунда позволяет сделать вывод о том, что в условиях динамично меняющейся окружающей среды, пчелиный алгоритм эффективнее решает задачу исследования местности, при условии, что поиск ресурсов не менее важен, чем само исследование среды.
Более того, в условиях постоянно меняющейся среды, в том числе перемещение групп агентов-противников, также представляющих «препятствие» при перемещении, алгоритм поиска A* оказался более гибким и эффективным, чем Алгоритм Дейкстры.
Основываясь на полученных данных, можно утверждать, что обучение с подкреплением является эффективным инструментом в задаче группового управления в условиях динамично изменяющихся характеристик внешней среды. Таким образом, обучение с подкреплением будет эффективно в задачах, связанных с проектированием роботов различного назначения, от боевых роботов, до роботов-уборщиков, для которых человек или домашнее животное, являются динамичным препятствием.
Библиография
1. Sutton R.S., Barto A.G. Reinforcement Learning. An Introduction.-The MIT Press, 1998, 322 p.
2. Хайкин С. Нейронные сети. Полный курс.-М.: Вильямс, 2006, с. 1104.
3. Плахов, А. С. КРИ / А. С. Плахов // Организация разработки AI для стратегических игр[Электронный ресурс].- 2004. Режим доступа: http://masters.donntu.org/2014/fknt/kebikov/library/article6.htm
4. Шампандар, Дж. А. Искуственный интеллект в компьютерных играх / Дж. А. Шампандар.-М.: Вильямс, 2007.-768 стр.
5. В.В. Круглов, B.В. Борисов. Искусственные нейронные сети. Теория и практика /-М.: Горячая линия-Телеком, 2001.-382 с.
6. К.В. Картавцев, О.Н. Мелехова, С.В. Тимченко. Модель детерминированной сети роботов. // Доклады Томского государственного университета систем управления и радиоэлектроники - 2010, 1-1(21), 85-88 с.
7. Барский А.Б. Логические нейронные сети. М.: Бином, 2007, 352 с.
8. Л. Н. Ясницкий -- Введение в искусственный интеллект, 25 с.
9. Горбачевская Е.Н. Классификация нейронных сетей. // Вестник Волжского университета им. В.Н. Татищева - 2012, 2(19), 35-41 с.
10. Соколов Д.О. Применение двухэтапного генетического программирования для построения автомата, управляющего моделью танка в игре «Robocode»[Электронный ресурс]. Бакалаврская работа.-СПбГУ ИТМО, 2009. Режим доступа: http://ntv.ifmo.ru/ru/article/263/primenenie_dvuhetapnogo_geneticheskogo_programmirovaniya_dlya_postroeniya_modeli_tanka_v_igre_%C2%ABROBOCODE%C2%BB.htm.
11. Ч.И. Игоревич. Применение машинного обучения для создания управляющих автоматов на примере игры Robocode.[Электронный ресурс], Режим доступа: http://ntv.ifmo.ru/file/article/264.pdf
12. Сандра Блейксли, Джефф Хокинс «Об интеллекте»: Издательский дом «Вильямс»; Москва-Санкт-Петербург-Киев; 2007 ISBN ISBN 978-5-8459-1139-1 (рус.), ISBN 0-8050-7456-2 (англ.), 240 с.
13. Новый ум короля. О компьютерах, мышлении и законах физики. Роджер Пенроуз, 1989. Издательство Оксфордского университета, с. 480, ISBN: 0-19-851973-7 (1-е изд.), 402 с.
14. Дж. Баррат. Последнее изобретение человечества. Искусственный интеллект и конец эры Homo sapiens. 2015, 312 с.