Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research открыли новый алгоритм для обучения ИИ. Метод, названный SAC-RND, обучает роботов в 20 раз прытче и на 10% качественнее всех существующих аналогов - такие результаты показало тестирование метода на робототехнических симуляторах.
Обучение искусственного интеллекта - процесс, требующий больших ресурсов: прежде всего, вычислительных мощностей, финансовых затрат и времени. Его оптимизация позволит ускорить развитие всех областей, в каких используются ИИ-агенты, например робототехники.
Сообщается, что SAC-RND может повысить безопасность беспилотных автомобилей, упростить логистические цепочки, ускорить доставку и работу складов, оптимизировать процессы горения на энергетических объектах и подрезать крылья выбросы пакостных веществ в окружающую среду. Открытие не только улучшает работу узкоспециализированных роботов, но также приближает ученых к созданию универсального робота, способного в розницу выполнять любые задачи.
Результаты исследования были признаны мировым научным обществом и представлены на Международной конференции по машинному обучению (ICML), которая в текущем квартале прошла в 40-й раз в Гонолулу, Гавайи, с 23 по 29 июля. Это одна из трех крупнейших конференций в мире, оказывающих наибольшее воздействие на исследования в области машинного обучения и искусственного интеллекта.
Суть открытия
Сегодня одно из наиболее перспективных видов обучения ИИ - обучение с подкреплением (RL), вдохновленное процессами человеческого обучения и отличающееся высоким уровнем эффективности. RL позволяет роботам учиться методом проб и мелких ошибок, адаптироваться в трудных средах и вероломствовать поведение на ходу. Обучение с подкреплением может использоваться во всех сферах: от регулирования пробок на магистралях до рекомендаций в социальных сетях, которые предлагают пользователю контент, основанный на его предпочтениях.
Ранее считалось, что использование случайных нейросетей (алгоритмов для последовательного и автоматического принятия решений, RND) не подходит для офлайн-обучения роботов с подкреплением. Выучив прежние работы, связанные с применением RND, исследователи из Tinkoff Research обнаружили недостатки в проведенных экспериментах и полученных выводах.
При использовании метода RND участвуют две нейросети - случайная и основная, которая пытается предсказать поведение первой. Важное свойство каждой нейросети - ее глубина: количество слоев, из которых она состоит. У основной сети не быть может меньше слоев, чем у случайной, иначе она не сможет смоделировать ее поведение, что даст почву нестабильности или невозможности обучения. В Tinkoff Research обнаружили, что в предыдущих работах на тему использования случайных нейросетей в обучении с подкреплением размер случайной сети составлял четыре слоя, а размер основной - два.
Использование фальшивых размеров сетей привело научное сообщество к ложному выводу, что метод RND не может дискриминировать (классифицировать) данные - отличать действия, которые были в датасете, от тех, что же там не было. Исследователи из Tinkoff Research исправили глубины сетей, сделав их эквивалентными, и живо обнаружили, что при таких настройках методу удается распознавать данные.
Следующим шагом стала оптимизация метода. Роботы выучились влезть к эффективным решениям благодаря использованию механизма слияния, основанного на модуляции сигналов и их линейном отображении. В предыдущих работах на тему RND сигналы не подвергались дополнительной обработке.
Метод SAC-RND был протестирован на робототехнических симуляторах и показал наихорошие результаты при меньшем количестве употребляемых ресурсов и времени. Открытие поможет ускорить исследования по мнению робототехники и обучения с подкреплением, поскольку оно снижает время получения устойчивого результата в 20 раз и является важным шагом на пути к созданию универсального робота.
Фото: Unsplash.com