Читаем Десять уравнений, которые правят миром. И как их можете использовать вы полностью

Когда мы изучаем примеры современного ИИ – например, нейронную сеть компании DeepMind, которая стала лучшим в мире игроком в го, или искусственный интеллект, который научился играть в «Космических захватчиков» либо в другие игры для Atari, – мы должны считать их выдающимися достижениями инженерии. Некая группа математиков и программистов собрала воедино все фрагменты. За этим ИИ стоит не какое-то одно уравнение.

Но – и это важно для всего моего проекта по описанию десяти уравнений – компоненты искусственного интеллекта включают девять из них. Так что в финале я попробую объяснить, как DeepMind стала мастером игры, используя ту математику, которую мы уже изучили в этой книге.

Представьте сцену, где в окружении кольца столиков стоит шахматный гроссмейстер. Он подходит к одному столу, изучает позицию и делает ход. Затем переходит к следующему и делает ход там. В конце сеанса оказывается, что он выиграл все партии. Сначала может показаться невероятным, что гроссмейстер отслеживает столько шахматных партий одновременно. Неужели он может помнить, как развивалась игра до данного момента, и решать, что делать дальше? Но потом вы вспоминаете уравнение умений.

Ситуацию в партии можно увидеть непосредственно на доске: защитная структура пешек, качество убежища для короля, насколько хорош для атаки ферзь и т. д. Гроссмейстеру не нужно знать, как шла игра до настоящего момента, достаточно изучить позицию и выбрать следующий ход. Умения шахматиста можно измерить тем, как он берет текущее состояние доски и переводит его в новое, делая какой-то закономерный ход. Это новое состояние уменьшает или увеличивает его шансы на победу в партии? При оценке гроссмейстеров применяется уравнение 4 (марковское предположение).

«Многие игры с полной информацией – например, шахматы, шашки, реверси или го – можно считать марковскими». Такой была первая фраза в разделе «Методы» статьи Дэвида Сильвера и других специалистов Google DeepMind об их программе, ставшей лучшим игроком в го в мире[183]. Это наблюдение упрощает задачу нахождения решения для этих игр, поскольку позволяет сосредоточиться на поиске оптимальной стратегии для текущего состояния на доске, не заботясь о том, что происходило до этого момента.

Мы уже анализировали математику отдельного нейрона в главе 1. Уравнение 1 брало текущие коэффициенты для какого-нибудь футбольного матча и преобразовывало в решение, стоит нам делать ставку или нет. По сути, это упрощенная модель того, что делает отдельный нейрон в вашем мозге. Он получает внешние сигналы – от других нейронов или из внешнего мира – и преобразует их в решение, что ему сделать. Такое упрощающее предположение легло в основу первых моделей нейронных сетей, а уравнение 1 использовалось для моделирования реакции нейронов. Сегодня это одно из двух очень похожих уравнений, которые используются для моделирования нейронов почти во всех сетях[184].

Далее мы обратимся к одному из вариантов уравнения вознаграждения. В уравнении 8 величина Qt была оценкой качества сериала Netflix или вознаграждения, получаемого от проверки аккаунта в Twitter. Вместо того чтобы оценивать один фильм или один аккаунт, сейчас мы просим нашу нейронную сеть оценить 1,7 × 10172 разных состояний в игре го или 10172 сочетаний клипов и пользователей на YouTube. Обозначим Qt(st, at) качество состояния мира st при условии, что мы намереваемся произвести некоторое воздействие at. В игре го состояние st – решетка 19 × 19, где у каждого узла (в го они называются пунктами) есть три возможных состояния: пуст, занят белым камнем или занят черным камнем. Возможные действия at – пункты, куда можно поставить очередной камень. Тогда величина, характеризующая качество – Qt(st, at), – говорит нам, насколько хорош будет ход at в состоянии st. Для YouTube одно состояние – все пользователи в сети и все имеющиеся ролики. Действие – просмотр конкретным пользователем конкретного видеоролика, а качество – насколько долго он его просматривает.

Вознаграждение Rt(st, at) – награда, которую мы получаем за выполнение действия at в состоянии st. В го награда появляется только с концом партии. Мы можем дать 1 за выигрывающий ход, – 1 за проигрывающий и 0 за любой другой. Какое-нибудь состояние может иметь высокое качество, но нулевое вознаграждение: например, если некоторое расположение камней близко к победному.

Когда DeepMind использовала уравнение вознаграждения для игр Atari, она добавляла еще один компонент: будущее. Когда мы производим какое-нибудь действие at (ставим камень в го), то переходим в новое состояние st+1 (на доске занят тот пункт, куда мы сделали ход). Уравнение вознаграждения DeepMind добавляет вознаграждение размером Qt(st+1, a) за наилучшее действие в этом новом состоянии. Это позволяет искусственному интеллекту планировать свои будущие шаги в игре.

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

История математики. От счетных палочек до бессчетных вселенных
История математики. От счетных палочек до бессчетных вселенных

Эта книга, по словам самого автора, — «путешествие во времени от вавилонских "шестидесятников" до фракталов и размытой логики». Таких «от… и до…» в «Истории математики» много. От загадочных счетных палочек первобытных людей до первого «калькулятора» — абака. От древневавилонской системы счисления до первых практических карт. От древнегреческих астрономов до живописцев Средневековья. От иллюстрированных средневековых трактатов до «математического» сюрреализма двадцатого века…Но книга рассказывает не только об истории науки. Читатель узнает немало интересного о взлетах и падениях древних цивилизаций, о современной астрономии, об искусстве шифрования и уловках взломщиков кодов, о военной стратегии, навигации и, конечно же, о современном искусстве, непременно включающем в себя компьютерную графику и непостижимые фрактальные узоры.

Ричард Манкевич

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Математика / Научпоп / Образование и наука / Документальное