Статья: Применение алгоритмов группового управления и машинного обучения на примере игры Battlecode

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

действия: пчелиный алгоритм, муравьиный алгоритм;

награда: «+5» за увеличение ресурсов, «+1» за исследование среды;

2. выбор оптимального маршрута:

состояние среды: относительная цена маршрута;

действия: алгоритм поиска А*, алгоритм Дейкстры;

награда: «+5» за построение более «дешевого» маршрута;

3. боевое взаимодействие:

состояние среды: общая боевая сила противников, находящихся в зоне видимости, общая сила союзных агентов, находящихся в зоне видимости, алгоритм светлячка;

действие: отступление, атака;

награда: «+5» за уничтожение агента противника, «-5» за потерю своего агента;

4. распределение ролей:

состояние среды: мирное время (исследование), военное время;

действие: роль разведчика, роль добытчика ресурсов, роль солдата;

награда: «+5» за победу в раунде, «-5» за поражение, «+2» за получение ресурса, «+2» за уничтожение агента противника;

5. переход от исследования к нападению:

состояние среды: процент исследованной территории, отношение агрессивного поведения противника к общему числу столкновений;

действия: переход к нападению;

награда: «+5» за победу в раунде, «-5» за поражение.

Результаты экспериментов.

Обучение проводится в два этапа. На первом этапе проходит обучение нейронных сетей для каждого отдельного действия в специально смоделированных условиях. Второй этап состоит в обучении нейронной сети, которая отвечает за переход от общей тактики исследования/сбора ресурсов к нападению. Обучение организовано путем проведения сражений против моделей-противников Cwega, Spock73 и RobotClass, распространяемых на официальном форуме игры и являющихся, соответственно, победителями соревнований в 2012, 2014 и 2015 годах. Каждый раунд проходит на новой игровой территории. Построенные нейронные сети сравниваются по итогам игры с этими моделями.

Рисунок 2. Графики средней награды в задачах.

Заключение

В данной работе рассмотрена задача построения модели, осуществляющей групповое управление автономными агентами в мультиагентной системе на примере игры «Battlecode». Для решения задачи оптимизации управления и адаптации модели к динамично изменяющейся среде предложено обучение с подкреплением.

Сравнение результатов для различных действий и их влияние на итоговый результат раунда позволяет сделать вывод о том, что в условиях динамично меняющейся окружающей среды, пчелиный алгоритм эффективнее решает задачу исследования местности, при условии, что поиск ресурсов не менее важен, чем само исследование среды.

Более того, в условиях постоянно меняющейся среды, в том числе перемещение групп агентов-противников, также представляющих «препятствие» при перемещении, алгоритм поиска A* оказался более гибким и эффективным, чем Алгоритм Дейкстры.

Основываясь на полученных данных, можно утверждать, что обучение с подкреплением является эффективным инструментом в задаче группового управления в условиях динамично изменяющихся характеристик внешней среды. Таким образом, обучение с подкреплением будет эффективно в задачах, связанных с проектированием роботов различного назначения, от боевых роботов, до роботов-уборщиков, для которых человек или домашнее животное, являются динамичным препятствием.

Библиография

1. Sutton R.S., Barto A.G. Reinforcement Learning. An Introduction.-The MIT Press, 1998, 322 p.

2. Хайкин С. Нейронные сети. Полный курс.-М.: Вильямс, 2006, с. 1104.

3. Плахов, А. С. КРИ / А. С. Плахов // Организация разработки AI для стратегических игр[Электронный ресурс].- 2004. Режим доступа: http://masters.donntu.org/2014/fknt/kebikov/library/article6.htm

4. Шампандар, Дж. А. Искуственный интеллект в компьютерных играх / Дж. А. Шампандар.-М.: Вильямс, 2007.-768 стр.

5. В.В. Круглов, B.В. Борисов. Искусственные нейронные сети. Теория и практика /-М.: Горячая линия-Телеком, 2001.-382 с.

6. К.В. Картавцев, О.Н. Мелехова, С.В. Тимченко. Модель детерминированной сети роботов. // Доклады Томского государственного университета систем управления и радиоэлектроники - 2010, 1-1(21), 85-88 с.

7. Барский А.Б. Логические нейронные сети. М.: Бином, 2007, 352 с.

8. Л. Н. Ясницкий -- Введение в искусственный интеллект, 25 с.

9. Горбачевская Е.Н. Классификация нейронных сетей. // Вестник Волжского университета им. В.Н. Татищева - 2012, 2(19), 35-41 с.

10. Соколов Д.О. Применение двухэтапного генетического программирования для построения автомата, управляющего моделью танка в игре «Robocode»[Электронный ресурс]. Бакалаврская работа.-СПбГУ ИТМО, 2009. Режим доступа: http://ntv.ifmo.ru/ru/article/263/primenenie_dvuhetapnogo_geneticheskogo_programmirovaniya_dlya_postroeniya_modeli_tanka_v_igre_%C2%ABROBOCODE%C2%BB.htm.

11. Ч.И. Игоревич. Применение машинного обучения для создания управляющих автоматов на примере игры Robocode.[Электронный ресурс], Режим доступа: http://ntv.ifmo.ru/file/article/264.pdf

12. Сандра Блейксли, Джефф Хокинс «Об интеллекте»: Издательский дом «Вильямс»; Москва-Санкт-Петербург-Киев; 2007 ISBN ISBN 978-5-8459-1139-1 (рус.), ISBN 0-8050-7456-2 (англ.), 240 с.

13. Новый ум короля. О компьютерах, мышлении и законах физики. Роджер Пенроуз, 1989. Издательство Оксфордского университета, с. 480, ISBN: 0-19-851973-7 (1-е изд.), 402 с.

14. Дж. Баррат. Последнее изобретение человечества. Искусственный интеллект и конец эры Homo sapiens. 2015, 312 с.