Читаем Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге полностью

Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге

Базальные ядра есть в мозге у всех млекопитающих. В базальных ядрах дофаминовые нейроны отвечают за одну из форм обучения, которую называют ассоциативным обучением. Вспомним знаменитую собаку Павлова. В эксперименте Павлова сенсорный стимул, например звонок (условный стимул), предшествовал приему пищи (безусловный стимул), который вызывал слюноотделение (безусловный рефлекс). После нескольких повторений звонок также начинал вызывать у собаки слюноотделение (условный рефлекс). Разные животные предпочитают разные ассоциативные стимулы: например, пчелы хорошо реагируют на запах, цвет и форму цветка, используя выученную ассоциацию для поиска похожих цветов, когда те расцветают. По всей видимости, эта универсальная форма обучения очень важна, и в 1960-е годы психологи активно изучали условия, способствующие ассоциативному обучению, и разрабатывали модели для его объяснения.

С вознаграждением ассоциируется только тот стимул, который ему предшествует[466]. Это логично, поскольку стимул, возникающий до вознаграждения, с большей вероятностью окажется его причиной, чем тот, который поступит после вознаграждения. В природе принцип причинности играет важную роль.

Предположим, вы приняли ряд решений для достижения цели. Если вы не будете знать наперед результат каждого из этих решений, вам придется учиться на собственном опыте в реальном времени. Если вы получаете вознаграждение по итогам последовательности решений, как узнать, какое из них привело к положительному результату? Алгоритм обучения, который может ответить на этот вопрос, называется методом временного присваивания коэффициентов доверия. Он был разработан Ричардом Саттоном в Массачусетском университете в Амхерсте в 1988 году[467]. В тесном сотрудничестве с Эндрю Барто, своим научным руководителем, Саттон работал над сложными вопросами обучения с подкреплением — это метод машинного обучения, образцом для которого стало ассоциативное обучение у животных. При обучении методом временных разностей вы сравниваете свои ожидания относительно вознаграждения за выбор того или иного варианта с полученным в реальности вознаграждением, после чего корректируете ожидания, чтобы в следующий раз принять лучшее решение. Затем обновляется оценочная сеть, которая рассчитывает ожидаемое вознаграждение для каждого решения в каждой точке выбора. Алгоритм временных разностей приближает вас к оптимальной серии решений, когда у вас достаточно времени на анализ возможностей. После этого начинается этап реализации наилучшей стратегии, выработанной на основе анализа.

Пчелы — лучшие ученики в мире насекомых. Им требуется лишь несколько полетов к цветку с нектаром, чтобы запомнить его. Это быстрое обучение исследовалось в лаборатории Рэндольфа Мензеля в Берлине, когда я приехал туда в 1992 году. Мозг пчелы состоит из миллиона нейронов, и регистрировать их электрические сигналы очень трудно. Мартин Хаммер из группы Мензеля открыл уникальный нейрон, названный VUMmx1, который реагирует усилением электрической активности на сахарозу, но не на запах; однако если вскоре после обоняния запаха пчела получала вознаграждение в виде сахарозы, VUMmx1 начинал реагировать и на запах.

Когда я вернулся в Ла-Хойю, сотрудник моей лаборатории Питер Дэйан, специалист по обучению с подкреплением, сразу же понял, что этот нейрон можно использовать для обучения методом временных разностей. Наша модель обучения пчелы позволяет объяснить некоторые особенности психики этих насекомых, такие как избегание риска. Когда пчеле предлагают выбор между гарантированным вознаграждением и удвоенным вознаграждением с 50-процентной вероятностью (в среднем получается тот же объем), она предпочитает гарантированное. Рид Монтегю, еще один сотрудник моей лаборатории, сделал следующий шаг, осознав, что дофаминовые нейроны в системе вознаграждения позвоночных могут выполнять аналогичную функцию[468]. Это был один из самых волнующих этапов моей научной жизни: наши модели и сделанные на их основе прогнозы были опубликованы, а впоследствии подтверждены на обезьянах (Вольфрамом Шульцем) и на людях. У обезьян для этого регистрировались сигналы отдельных нейронов, а в случае с людьми применялись методы визуализации мозга[469]. Кратковременные изменения в активности дофаминовых нейронов сигнализируют об ошибке в ожиданиях вознаграждения.

Читаем Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге полностью

Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге

Похожие книги

Все жанры