ПостНаука продолжает рассказывать о современных технологиях в проекте «Банк знаний», подготовленном совместно с Корпоративным университетом Сбербанка.

Компьютерное моделирование когнитивных функций человека — это построение математических моделей и разработка программ, которые не только внешне имитируют поведение человека, но и пытаются повторить то, как оно реализуется на самом деле. В этой большой области я занимаюсь двумя темами: обучением с подкреплением и проблемой основания знаков (symbol grounding problem).

На проблему основания знаков в литературе по искусственному интеллекту впервые обратили внимание в 1990 году. Эта проблема состоит в том, чтобы связать символ, представленный с помощью модели или некоторого слова, с сенсорным опытом. Эта тема приобретает особую важность в робототехнике, потому что физические интеллектуальные агенты — роботы — работают в реальной среде и должны понимать, с чем соотносятся символы, знаки и команды, не хуже человека.

Рекомендуем по этой теме:
2428
Как обучить нейронную сеть?

1

Schrodt F., Kneissler J., Ehrenfeld S., Butz M.V. Mario Becomes Cognitive. Topics in Cognitive Science. 2017 Apr; 9(2): 343-373. doi: 10.1111/tops.12252. Epub 2017 Feb 7.

Статья о моделировании поведения аватара в компьютерных играх, в данном случае речь идет об игре Super Mario. Авторы построили когнитивную архитектуру SEMLINCS, которая обучает персонажа игры переходить с уровня на уровень. По умолчанию Марио умеет выполнять простейшие операции вроде планирования пути от одной точки к другой. В течение игры аватар набирает опыт и узнает, что можно разрушать объекты или собирать вопросительные знаки, чтобы становиться больше.

Основная задача авторов заключалась в том, чтобы составить дискретные правила (символьные описания), сообщающие, какие действия нужно совершать. Обучающую информацию Марио получает с изображения, как мы — с экрана компьютера или приставки.

Научить персонажа играть в Super Mario лучше, чем человек, не получилось. Но авторы статьи представили сенсомоторный опыт в символьных правилах, которые можно выразить на естественном языке (на английском: на нем проще, чем на русском, генерировать предложения). Так аватар сообщает, что он делает или планирует делать, а также воспринимает указания из внешнего мира. Если аватару нужно научиться новому действию, он обрабатывает простую фразу, превращает ее в свои дискретные правила и обратно транслирует в сенсомоторный опыт, чтобы совершить эти действия.

2

Silver D. and etc. The Predictron: End-To-End Learning and Planning // ICML 2017

DeepMind, британская компания, занимающаяся искусственным интеллектом, заслужила известность, когда научила компьютерную программу играть в аркадные игры лучше человека.

Задача обучения с подкреплением отличается от обычного машинного обучения тем, что у вас нет точных ответов к поставленным задачам. Вы не знаете действий, которые нужно совершить, — нет учителя, направляющего в нужную сторону. Зато у вас есть индикация правильных действий. Обычно это счет, и он увеличивается, если все делается хорошо. Задача обучения с подкреплением — составить такую цепочку действий, чтобы максимизировать суммарный счет за игру.

Рекомендуем по этой теме:
2364
Обучаемая робототехника

С 1990-х, когда была поставлена задача, появилось несколько алгоритмов ее решения. Например, используют итерационное уравнение Беллмана из динамического программирования, решая задачу оптимизации. Мы хотим улучшить цепочку действий, чтобы получить максимальный счет. Это достигается за счет того, что мы пытаемся улучшить оценку каждой ситуации, в которой оказываемся. Значит, из всех цепочек действий мы должны выбрать одну — это и есть нахождение максимума счета или минимума функции потерь.

Основная идея работы в том, что авторы построили архитектуру, сочетающую в себе обучение этой модели и обучение цепочек действий. Они одновременно получают информацию о среде и обучаются. Агент строит модель, вначале совершая случайные действия, чтобы набрать статистику, а потом пользуется этой моделью, чтобы переходить в ситуацию с максимальным итоговым выигрышем.

Ценность работы в том, что их модель хорошо распространяется на любую игровую ситуацию и среду, в которой агент будет получать сведения. Главное, чтобы агент распознал состояние, в котором он находится, и узнал, какой счет в данный момент.

3

Rasmussen D, Voelker A, Eliasmith C. (2017) A neural model of hierarchical reinforcement learning. PLoS ONE 12(7): e0180234

Крис Элиасмит и его команда занимаются созданием компьютерных моделей больших нейронных систем. Они не имеют никакого отношения к нейронным сетям, которые используются в машинном обучении. Это попытка создать точные копии работы нейронов. Они нужны, чтобы построить вычислительную модель нейронного субстрата и создать модель более сложного поведения.

В статье Элиасмит рассказывает, как у человека работает обучение с подкреплением. Он провел эксперименты, в которых сравнивал, какие зоны мозга активируются, когда человек решает задачи. Новизна в том, что Элиасмит использовал иерархическое обучение с подкреплением. В классическом обучении с подкреплением все действия равноправны: для агента неважно, в какую сторону двигаться. А в иерархическом обучении с подкреплением у робота есть иерархия действий: простые — поехать вправо или влево; сложные, абстрактные — переместиться из одного угла в другой.

Модель Элиаса показала, что человек использует иерархическое обучение при работе с простейшими когнитивными задачами. Разные действия реализуются отдельными ансамблями нейронов в мозге. Они естественным образом связаны друг с другом, но за каждый уровень абстракции у нас отвечает отдельная структура в коре головного мозга. Этот результат в очередной раз продемонстрировал, что иерархическое обучение с подкреплением очень близко к тому, как в реальности обучается человек.