Базальные ядра есть в мозге у всех млекопитающих. В базальных ядрах дофаминовые нейроны отвечают за одну из форм обучения, которую называют ассоциативным обучением. Вспомним знаменитую собаку Павлова. В эксперименте Павлова сенсорный стимул, например звонок (условный стимул), предшествовал приему пищи (безусловный стимул), который вызывал слюноотделение (безусловный рефлекс). После нескольких повторений звонок также начинал вызывать у собаки слюноотделение (условный рефлекс). Разные животные предпочитают разные ассоциативные стимулы: например, пчелы хорошо реагируют на запах, цвет и форму цветка, используя выученную ассоциацию для поиска похожих цветов, когда те расцветают. По всей видимости, эта универсальная форма обучения очень важна, и в 1960-е годы психологи активно изучали условия, способствующие ассоциативному обучению, и разрабатывали модели для его объяснения.
С вознаграждением ассоциируется только тот стимул, который ему предшествует[466]. Это логично, поскольку стимул, возникающий до вознаграждения, с большей вероятностью окажется его причиной, чем тот, который поступит после вознаграждения. В природе принцип причинности играет важную роль.
Предположим, вы приняли ряд решений для достижения цели. Если вы не будете знать наперед результат каждого из этих решений, вам придется учиться на собственном опыте в реальном времени. Если вы получаете вознаграждение по итогам последовательности решений, как узнать, какое из них привело к положительному результату? Алгоритм обучения, который может ответить на этот вопрос, называется методом временного присваивания коэффициентов доверия. Он был разработан Ричардом Саттоном в Массачусетском университете в Амхерсте в 1988 году[467]. В тесном сотрудничестве с Эндрю Барто, своим научным руководителем, Саттон работал над сложными вопросами обучения с подкреплением — это метод машинного обучения, образцом для которого стало ассоциативное обучение у животных. При обучении методом временн
Пчелы — лучшие ученики в мире насекомых. Им требуется лишь несколько полетов к цветку с нектаром, чтобы запомнить его. Это быстрое обучение исследовалось в лаборатории Рэндольфа Мензеля в Берлине, когда я приехал туда в 1992 году. Мозг пчелы состоит из миллиона нейронов, и регистрировать их электрические сигналы очень трудно. Мартин Хаммер из группы Мензеля открыл уникальный нейрон, названный VUMmx1, который реагирует усилением электрической активности на сахарозу, но не на запах; однако если вскоре после обоняния запаха пчела получала вознаграждение в виде сахарозы, VUMmx1 начинал реагировать и на запах.
Когда я вернулся в Ла-Хойю, сотрудник моей лаборатории Питер Дэйан, специалист по обучению с подкреплением, сразу же понял, что этот нейрон можно использовать для обучения методом временн