Исследователи из НИТУ МИСИС и НИУ ВШЭ нашли способ эффективнее проводить обучение с подкреплением для нейросетей, предназначенных для ориентации в пространстве. С помощью механизма внимания, позволяющего модели сосредоточиться на наиболее важных входных данных при создании прогнозов, эффективность работы графовой нейросети увеличилась на 15%.
Для того чтобы самостоятельно перемещающиеся устройства могли ориентироваться в трехмерном пространстве, необходимы нейросети: окружающая среда требует быстрой реакции и возможности реагировать на изменяющиеся условия. Однако это является одной из самых сложных задач. Проблема в том, что у нейросети зачастую нет полной информации о ее текущем окружении, например глубины или карты местности. Еще меньше нейросеть знает о перспективах награды, которая выражена математической функцией: вознаграждение выдается не поэтапно, а один раз в конце, после полного выполнения задания. Функция помогает сети эффективнее решать задачу и обучаться.
Авторы исследования предложили новый метод формирования функции вознаграждения с учетом специфики однократного получения вознаграждения после полного решения проблемы. Он основывается на дополнительных вторичных вознаграждениях — шейпинге вознаграждения. Ученые применили два способа улучшения техники, которую в 2020 году предложили канадские ученые из Макгиллского университета. Первый использует продвинутые агрегирующие функции, а второй — механизм внимания. Продвинутые агрегирующие функции учитывают, в каком порядке и что видит нейросеть.
Исследователи провели серию экспериментов с поэтапным вознаграждением. Для них использовали две задачи на ориентацию в виртуальных пространствах — «4 комнаты», где нейросеть учиться параллельно в 16 пространствах, совершая 5 миллионов действий, чтобы найти ящик, и «Лабиринт», который каждый раз генерируется случайным образом, и для успешного обучения модели требуется пройти 20 миллионов шагов, чтобы найти выход. Ученые выяснили, что при формировании функции вознаграждения на основе механизма внимания, агент обучается фокусировке на ребрах графа, соответствующих важным переходам в трехмерной среде — тем, при которых цель попадает в поле зрения агента. Это до 15% повышает эффективность работы нейросетей. Подробности эксперимента опубликованы в журнале IEEE Access (Q1).
«Нам важно было оптимизировать процесс обучения именно для графовых нейронных сетей. Граф нельзя наблюдать целиком напрямую, но для эффективного обучения графовой нейронной сети достаточно рассматривать его части. Их можно наблюдать в виде отдельных траекторий перемещения агента. Таким образом, для обучения необязательны все варианты траекторий. Применение механизма внимания — перспективное решение, поскольку оно существенно ускоряет процесс обучения. Ускорение происходит за счет учета структуры графа процесса Маркова, что недоступно неграфовым нейросетям», — рассказывает Илья Макаров, PhD, директор Центра искусственного интеллекта НИТУ МИСИС, руководитель группы «ИИ в промышленности» Института AIRI.