«Підлітки краще вчаться на позитивному досвіді, ніж на негативному»

Навчання Перегляди: 70

Ріс. 1. Дизайн експерименту. A — варіанти вибору, B — послідовність подій під час одиничного акту навчання. Випробуваному показували в випадковому порядку чотири пари абстрактних символів, з яких потрібно було вибрати один. Кожну пару показували в цілому 20 разів, випадковим чином змінюючи положення символів на екрані. Кожна пара символів відповідала одному з чотирьох навчальних «контекстів». У першому випадку (Reward/Partial) один із символів приносив гравцеві 1 очко з імовірністю 75%, інший — з імовірністю 25%; після прийняття рішення випробовуваний отримував інформацію про свій виграш, але не про те, що він отримав би, вибравши інший символ (B, верхній ряд зображень). У другому випадку (Reward/Complete) все було так само, за винятком того, що випробовуваного інформували ще й те, який був би результат у разі прийняття альтернативного рішення (B, нижній ряд). У третьому і четвертому контекстах замість нагороди використовувалося покарання: при «правильному» виборі випробуваний втрачав 1 очко з ймовірністю 25%, при «неправильному» — з ймовірністю 75%. Малюнок з обговорюваної статті в PLoS Computational Biology

  • Відомо, що підлітки більш схильні до прийняття ризикованих рішень, ніж дорослі. Згідно з однією з гіпотез, це може бути пов’язано з тим, що підлітки використовують інші (більш прості) алгоритми обробки інформації про результати своїх вчинків. Експеримент, проведений британськими та італійськими психологами і нейроекономістами, підтвердив цю гіпотезу. Виявилося, що підлітки не гірше дорослих вчаться на позитивному досвіді, але сильно поступаються їм у здатності вчитися на негативному. Крім того, дорослі ефективно використовують доступну інформацію про те, до якого результату призвело б альтернативне рішення, а підлітки враховують тільки реальні результати своїх вчинків. Можливо, ці відмінності пов’язані з тим, що відділи мозку, що відповідають за навчання на позитивному досвіді, дозрівають раніше відділів, що забезпечують більш складні алгоритми навчання.


Відомо, що підлітки більш схильні до прийняття ризикованих рішень, ніж дорослі. Згідно з однією з гіпотез, це може бути пов’язано з тим, що підлітки використовують інші (більш прості) алгоритми обробки інформації про результати своїх вчинків. Експеримент, проведений британськими та італійськими психологами і нейроекономістами, підтвердив цю гіпотезу. Виявилося, що підлітки не гірше дорослих вчаться на позитивному досвіді, але сильно поступаються їм у здатності вчитися на негативному. Крім того, дорослі ефективно використовують доступну інформацію про те, до якого результату призвело б альтернативне рішення, а підлітки враховують тільки реальні результати своїх вчинків. Можливо, ці відмінності пов’язані з тим, що відділи мозку, що відповідають за навчання на позитивному досвіді, дозрівають раніше відділів, що забезпечують більш складні алгоритми навчання.

З точки зору нейробіології, навчання на позитивному і негативному досвіді — процеси зовсім різні. У першому центральну роль відіграють «емоційні» підкіркові структури (такі як належне ядро), а друге не обходиться без участі відділів кори, пов’язаних зі свідомим контролем (дорзальні та дорзолатеральні області префронтальної кори, острівець, ростральна частина поясної кори).

З точки зору алгоритмів, що лежать в основі навчання, картина аналогічна: на позитивному досвіді вчитися простіше. Найпростіший алгоритм навчання з підкріпленням — так зване Q-навчання (Q-learning) — оцінює результат прийнятих рішень за єдиною шкалою залежно від сприятливості результату. Цей алгоритм не потребує розуміння ситуації: для його використання не потрібно створювати модель реальності і враховувати контекст, в якому приймається рішення. Через свою простоту даний алгоритм забезпечує навчання на позитивному досвіді ефективніше, ніж на негативному. Він не може «зрозуміти», що в одній ситуації здобути нуль очок — це так само добре, як в іншій ситуації здобути одне очко (так буде, наприклад, якщо в першому випадку альтернативою є втрата очка, а в другому — здобуття нуля очок). Результат оцінюється за абсолютною шкалою, на якій одиниця завжди краща, ніж нуль, і тому рішення, що приносять очко, вивчаються надійніше, ніж рішення, що дозволяють не втратити очко.

Щоб ефективно вчитися уникати неприємностей, потрібні більш витончені калькуляції. Тут вже бажано розуміти контекст завдання і оцінювати отриманий результат не «взагалі», а по відношенню до того, що відбулося б в даній конкретній ситуації в разі прийняття альтернативного рішення.

Група британських та італійських психологів і нейроекономістів опублікувала в журналі PLoS Computational Biology результати дотепного експерименту, що проливає світло на механізми навчання у підлітків і дорослих людей. Гіпотеза, яку перевіряли автори, полягала в тому, що схильність підлітків до ризикованої поведінки пояснюється більш пізнім розвитком тих відділів мозку, які необхідні для складних алгоритмів навчання, і тому підлітки покладаються в основному на більш примітивний, але зате рано формується алгоритм, близький до Q-навчання.

В експерименті взяли участь 18 підлітків (якими вважалися особи у віці 12-17 років) і 20 дорослих (від 18 до 32 років). Схема досвіду представлена на малюнку 1. Кожному учаснику показували пари символів, з яких потрібно було вибрати один. Символів було всього 8, а пар, відповідно, 4. У кожній парі один символ приносив удачу з імовірністю 75%, а інший — з імовірністю 25%. Кожна пара символів відповідала одному з чотирьох «контекстів», що розрізняються характером підкріплення (нагорода або покарання) і доступністю додаткової інформації про те, до якого результату призвів би альтернативний вибір. Ефективність навчання оцінювалася за частотою, з якою випробовувані вибирали «правильні» символи після навчальної сесії.

Результати підтвердили очікування дослідників. Дорослі учасники продемонстрували однакову ефективність навчання на позитивному та негативному досвіді. Після навчання вони впевнено надавали перевагу символу, що приносить одне очко, спареному з ним символу, що приносить нуль очок, і настільки ж впевнено вибирали символ, що приносить нуль очок, якщо в парі з ним знаходився символ, який забирає очко. У підлітків результати навчання виявилися різними в цих двох ситуаціях. У першому випадку, коли вибір робився між 1 і 0, підлітки навчилися робити правильний вибір не гірше дорослих, а в другому, коли вибирати потрібно було між 0 і _ 1, ефективність навчання підлітків виявилася помітно нижче.

Крім того, дорослі отримали користь з додаткової інформації про результат альтернативного рішення: у варіантах з додатковою інформацією навчання пройшло успішніше. Підлітки ж не змогли використовувати ці відомості: ефективність їх навчання виявилася однаковою у варіантах з повною і неповною інформацією (рис. 2).

Ріс. 2. Зростання частоти «правильних» рішень у ході навчання. По горизонтальній осі — порядковий номер випробування (від 1 до 20, оскільки кожна пара символів демонструвалася 20 разів). По вертикальній осі — частка правильних рішень. Ліворуч підлітки (Adolescents), праворуч дорослі (Adults). Різними кольорами позначено чотири «контексти»; колірні позначення ті ж, що на рис. 1 (зелений: позитивне підкріплення, неповна інформація; коричневий: негативне підкріплення, неповна інформація; синьо-зелений: позитивне підкріплення, повна інформація; фіолетовий: від’ємне підкріплення, повна інформація). Суцільні лінії з затіненими областями — експериментальні дані — стандартна помилка; лінії з довірчими інтервалами — результати моделювання. Для імітації навчання підлітків використовувалася найпростіша модель 1 (див. рис. 3), для дорослих — більш складна модель 3. Малюнок з обговорюваної статті в PLoS Computational Biology

Автори спробували інтерпретувати отримані результати в рамках уявлень про алгоритми навчання. Для цього вони зробили три комп’ютерні моделі (рис. 3). Перша модель відповідає найпростішому Q-навчанню. Друга здатна враховувати також додаткові відомості про результати альтернативного (не обраного) рішення для уточнення уявлень про «цінність» цього рішення. Третя модель, на додачу до того, що вміють дві перші, використовує дані про результати обох рішень для того, щоб поставити отриманий виграш в адекватний контекст. Ця процедура дозволяє алгоритму «зрозуміти», що отримати нуль очок в ситуації, коли вам загрожувала втрата очка, це точно так само добре, як отримати 1 очко в ситуації, коли альтернативою було отримання нуля очок.

Ріс. 3. Три моделі навчання, з якими порівнювалися отримані результати. Моделі складаються з трьох додатків. Перший з них (Factual module) відповідає найпростішому алгоритму навчання з підкріпленням — Q-навчанню. Він модифікує величину Q (s, c) — «цінність» або «вдалість» обраного рішення c у ситуації s — залежно від отриманого результату R (c). Другий додаток (Counterfactual module) використовує дані про результат альтернативного (не обраного) рішення u для того, щоб уточнити величину Q (s, u). Третій модуль (Contextual module) використовує дані про результати обох рішень, обраного (c) і не обраного (u), щоб поставити отриманий виграш в адекватний контекст, співвіднісши його з тим, що в принципі можна було отримати в даній ситуації s (V (s) — середня цінність контексту, або усереднена цінність рішень c і u). Використання третього модуля веде до заміни абсолютної шкали оцінки виграшу на відносну. З цих трьох модулів були складені три моделі. Перша модель включає тільки додаток 1, друга — додатки 1 і 2, третя — всі три додатки. Малюнок з обговорюваної статті в PLoS Computational Biology

Ці три моделі пройшли точно такий же сеанс «навчання», як і живі учасники експерименту. Виявилося, що хід і кінцевий результат навчання підлітків найточніше описується найпростішою, першою моделлю (Q-навчання). Що стосується дорослих, то їх навчання найточніше відтворюється найскладнішою моделлю № 3.

Таким чином, отримані результати узгоджуються з припущенням про те, що підлітки використовують найпростіший алгоритм навчання з підкріпленням, близький до Q-навчання. Це пояснює, чому підлітки гірше вчаться на негативному підкріпленні, ніж на позитивному. Дорослі використовують більш складний алгоритм навчання, що включає додаткові модулі. Це дозволяє, по-перше, використовувати додаткову інформацію про цінність не обраного рішення, по-друге, інтерпретувати отриманий виграш в адекватному контексті, оцінюючи його не «взагалі», а по відношенню до того, що в принципі можна було отримати в даній ситуації. Завдяки цьому дорослі вчаться на негативному досвіді так само ефективно, як і на позитивному.

Спрощений алгоритм навчання, характерний для підлітків, узгоджується з даними про більш пізнє дозрівання відділів мозку, необхідних для реалізації більш складних і ефективних алгоритмів. З іншого боку, використання дітьми та підлітками саме цього простого алгоритму, швидше за все, має важливий адаптивний сенс. Дуже точно прокоментувала обговорювану статтю в моєму блозі одна молода мама, помітивши, що якби її дитина відразу переставала робити все, на чому вона набиває шишки, вона б навіть ходити не навчилася.

Джерело: Stefano Palminteri, Emma J. Kilford, Giorgio Coricelli, Sarah-Jayne Blakemore. The Computational Development of Reinforcement Learning during Adolescence // PLoS Computational Biology. V. 12. P. e1004953.

Див. також:

1) Схильність до наркоманії та азартних ігор пов’язана з нездатністю вчитися на своїх помилках, «Елементи», 10.12.2007.

2) Дофамінові нейрони потрібні мухам, щоб вчитися на помилках, «Елементи», 10.09.2012.

3) У «системі винагороди» знайдені нейрони, що збуджуються від хороших передчуттів, «Елементи», 10.02.2012.

4)

Олександр Марков

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *