Алгоритм Google Atari-Playing может стать будущим ИИ

  • 2019

Геймер пробивает игру после бесконечной игры классика Atari Космические захватчики, Через бесконечную цепочку неудач, геймер адаптирует стратегию геймплея, чтобы достичь максимального результата. Но это не человек с джойстиком в подвале 1970-х годов. Искусственный интеллект учится играть в игры Atari. Atari наркоман - это алгоритм глубокого обучения, называемый DQN.

Этот алгоритм начался без предварительной информации о Космические захватчикиИли, если на то пошло, другие 48 игр Atari 2600, в которые он учится играть и иногда осваивает их после двух недель подряд. На самом деле, он даже не был предназначен для старых видеоигр; Это универсальная самообучающаяся компьютерная программа. Тем не менее, после просмотра экрана Atari и игры с элементами управления в течение двух недель, DQN играет на уровне, который унизил бы даже профессионального геймера из плоти и крови.

Владимир Мних и его команда программистов из Google, которые только что представили DQN в журнале Природаговорит, что их создание - это больше, чем просто впечатляющий геймер. Мних говорит, что универсальный алгоритм обучения DQN может быть первой ступенькой на пути к искусственному интеллекту.

«Это первый случай, когда кто-то создал единую общую систему обучения, которая может учиться непосредственно на опыте, чтобы справляться с широким спектром сложных задач», - говорит Демис Хассабис, член команды Google.

Внутри мозг DQN

Google DeepMind

Алгоритм работает только на мощном настольном ПК с мощной видеокартой. По своей сути, DQN увлекательно объединяет два отдельных достижения в машинном обучении.

Первый шаг - это метод обучения с положительным подкреплением, называемый Q-learning. Здесь DQN, или Deep Q-Network, получает свою среднюю начальную букву. Q-learning означает, что DQN постоянно пытается принимать решения с помощью джойстика и нажатия кнопок, которые приближают его к свойству, которое ученые-компьютерщики называют «Q». Проще говоря, Q - это то, что алгоритм приближает к максимально возможной будущей награде за каждое решение. Для игр Atari эта награда - игровой счет.

DQN ни в коем случае не «понимает», что происходит в игре, так, как это делает человек.

Зная, какие решения приведут его к списку лучших бомбардиров, это не простая задача. Имейте в виду, что DQN начинается с нулевой информации о каждой игре, в которую он играет. Чтобы понять, как увеличить свой счет в такой игре, как Космические захватчикиВы должны распознать тысячу различных фактов: как движутся пикселированные инопланетяне, тот факт, что стрельба по ним приносит вам очки, когда стрелять, что делает стрельба, тот факт, что вы управляете танком, и многие другие предположения, большинство из которых человек понимает интуитивно. И затем, если алгоритм меняется на гоночную игру, боковой скроллер или Pac-Man, он должен изучить совершенно новый набор фактов.

Вот тут-то и наступает второй шаг в машинном обучении. DQN также построен на обширной и частично вдохновленной мозгом искусственной нейронной сети. Проще говоря, нейронная сеть - это сложная программа, созданная для обработки и сортировки информации по шуму. Он сообщает DQN, что является и что не важно на экране.

Вместе искусственная нейронная сеть и система Q-Learning позволяют DQN поглощать информацию порциями. DQN просматривает последние три кадра игры Atari, в которой она играет (и текущую) и с течением времени, использует свой прошлый опыт, чтобы предсказать, какой ход лучше всего повлияет на ее счет в будущем. Он учится методом проб и ошибок - DQN ни в коем случае не «понимает» происходящее в игре так, как это делает человек-игрок. Тем не менее, он все лучше и лучше соотносит изображения, полученные с игрового экрана, с оптимальным решением.

Как и многие из нас, в некоторых играх DQN работает лучше, чем в других. Например, алгоритм пугающе хорош в Разразиться, Заниматься боксом, а также Звездный Стрелок- порядки величины лучше, чем у любого человека. Но алгоритм шарит у боковой скроллера Монтесумы месть, (Исследователи полагают, что это, вероятно, связано с Монтесумы Revenge По система начисления очков, которая не всегда поощряет продвижение по игре с большим количеством очков.)

Является ли DQN искусственным интеллектом?

«Эта система, которую мы разработали, является просто демонстрацией силы общих алгоритмов», - говорит Корай Кавуккуоглу, один из разработчиков DQN. «Идея состоит в том, чтобы будущие версии системы могли обобщать любой проблема последовательного принятия решений, "такая как (по общему признанию) задача сортировки научных данных и получения научных выводов. На данный момент, они говорят, что DQN должен быть" применим ко многим другим задачам ", говорит он, включая более сложные видеоигры.

Бернхард Шёлкопф, директор Института интеллектуальных систем Макса Планка в Тюбингене, Германия, который не принимал участия в разработке DQN, приветствует работу группы Google. В письменном анализе DQN, также опубликованном сегодня в ПриродаОн называет это «замечательным примером прогресса, достигнутого в искусственном интеллекте», и сравнивает его с Deep Blue, известным компьютером, победившим чемпиона по шахматам Гарри Каспарова в 1997 году.

Этот алгоритм начался без предварительной информации о Space Invaders

Исследователи Google предпочитают называть DQN «искусственным агентом», а не ИИ. Но алгоритм тем не менее начинает размывать линии. Как вы классифицируете программу, которая учит себя превосходить задачи, для которых она не предназначена?

Исследователи ИИ, такие как Дуглас Хофштадтер, ранее говорили, что термин «искусственный интеллект» заслуживает жесткой позиции. По его словам, такие технологии, как IBM Watson или Apple Siri, не являются искусственным интеллектом, потому что они не понимают и не думают. Для Хофштадтера понимание является ядром «интеллекта» в ИИ.

Но Гугл Хассабис говорит, что такие алгоритмы, как DQN, "более похожи на людей [чем Уотсон или Сири] в том смысле, что они учатся тому, как люди учатся ... на опыте окружающего нас мира, а затем наш мозг создает модели мира и принимает решения о что делать."

ВИДЕО.

Следующая статья