banner
Дом / Новости / Мезолимбический дофамин адаптирует скорость обучения на основе действий
Новости
pageSearch
Последние новости

Тенденции рынка соединительных коробок для оптоволокна на 2023 год с анализом ключевых игроков Furukawa YOFC UI Lapp GmbH Phoenix Mecano AG METZ CONNECT Sterlite Power Nexans HUBER+SUHNER Neutrik Rosenberger OSI eks Engel GmbH & Co. KG Ipcom CommScope Prysmian Group Pepperl+Fuchs SE SCHMERSAL SIEMENS BOSCH

Aug 28, 2023

Тенденции рынка усилителей кабельного телевидения в 2023 году с анализом ключевых игроков Braun Group, Analog Devices, Skyworks, Blonder Tongue, Hangzhou Tuolima Network Technologies, Multicom, Freescale Semiconductor, Qorvo, MACOM, Comtech Xicom Technology, NXP Semiconductors, Vision Products

Oct 21, 2023

Тенденции рынка соединительных коробок для оптоволокна на 2023 год с анализом ключевых игроков Furukawa YOFC UI Lapp GmbH Phoenix Mecano AG METZ CONNECT Sterlite Power Nexans HUBER+SUHNER Neutrik Rosenberger OSI eks Engel GmbH & Co. KG Ipcom CommScope Prysmian Group Pepperl+Fuchs SE SCHMERSAL SIEMENS BOSCH

Jul 29, 2023

Тенденции рынка соединительных коробок для оптоволокна на 2023 год с анализом ключевых игроков Furukawa YOFC UI Lapp GmbH Phoenix Mecano AG METZ CONNECT Sterlite Power Nexans HUBER+SUHNER Neutrik Rosenberger OSI eks Engel GmbH & Co. KG Ipcom CommScope Prysmian Group Pepperl+Fuchs SE SCHMERSAL SIEMENS BOSCH

Nov 27, 2023

Тенденции рынка усилителей кабельного телевидения в 2023 году с анализом ключевых игроков Braun Group, Analog Devices, Skyworks, Blonder Tongue, Hangzhou Tuolima Network Technologies, Multicom, Freescale Semiconductor, Qorvo, MACOM, Comtech Xicom Technology, NXP Semiconductors, Vision Products

Jul 18, 2023

Мезолимбический дофамин адаптирует скорость обучения на основе действий

May 27, 2023May 27, 2023

Nature, том 614, страницы 294–302 (2023 г.) Процитировать эту статью

20 тысяч доступов

2 цитаты

109 Альтметрика

Подробности о метриках

Недавний успех в обучении искусственных агентов и роботов обусловлен сочетанием прямого обучения поведенческой политике и косвенного обучения через функции ценности1,2,3. Обучение политике и обучение ценностям используют разные алгоритмы, которые оптимизируют поведенческие характеристики и прогнозируют вознаграждение соответственно. У животных поведенческое обучение и роль мезолимбической передачи сигналов дофамина широко оценивались в отношении прогнозирования вознаграждения4; однако до сих пор мало внимания уделялось тому, как прямое изучение политики может повлиять на наше понимание5. Здесь мы использовали комплексный набор данных о движениях орофациальной области и тела, чтобы понять, как развивалась поведенческая политика, когда наивные мыши с ограниченной головой осваивали парадигму следового кондиционирования. Индивидуальные различия в первоначальных дофаминергических реакциях на вознаграждение коррелировали с появлением выученной поведенческой политики, но не с появлением предполагаемого кодирования значений для прогностического сигнала. Точно так же физиологически калиброванные манипуляции с мезолимбическим дофамином привели к нескольким эффектам, несовместимым с обучением ценностям, но предсказанным моделью на основе нейронных сетей, которая использовала сигналы дофамина для установки адаптивной скорости, а не сигнала ошибки, для обучения поведенческой политике. Эта работа предоставляет убедительные доказательства того, что фазовая активность дофамина может регулировать прямое обучение поведенческой политике, расширяя объяснительную силу моделей обучения с подкреплением для обучения животных6.

Биологические и искусственные агенты учатся оптимизировать поведение на основе опыта взаимодействия с окружающей средой. Теория обучения с подкреплением описывает алгоритмы, которые позволяют агенту итеративно улучшать свой успех посредством обучения3. Опыт взаимодействия с окружающей средой можно оценить либо по успеху поведенческой «политики» агента, которая непосредственно определяет выполняемые действия («политика обучения»), либо по субъективным ожиданиям агента вознаграждения, которые косвенно направляют действия («обучение ценности»). За последние несколько десятилетий было проведено большое количество работ по изучению того, как активность дофаминовых нейронов среднего мозга (mDA) соответствует предсказанным сигналам обновления (ошибкам прогнозирования вознаграждения (RPE)7) для ценностного обучения4. Однако активность mDA также отражает гетерогенное сочетание сигналов и функций, которые не могут быть полностью учтены прогнозами моделей обучения8,9,10,11,12. Фазическая активность mDA может быть переплетена с производством и мониторингом действий10,13,14,15,16,17,18 и определяется, по крайней мере частично, вкладами из областей, участвующих в определении поведенческой политики19. Это требует исследования того, как расширение области рассматриваемых алгоритмов обучения с подкреплением может повлиять на наше понимание фазовых сигналов mDA в биологических агентах.

Прямое политическое обучение, в частности, предлагает неиспользованный потенциал5,20 для создания «вычислительных и механистических примитивов»6, объясняющих функции дофамина, особенно в контексте освоения животными новых задач. Во-первых, методы прямого политического обучения достигли значительных успехов в решении задач обучения в робототехнике, которые напоминают проблемы, с которыми сталкивается животное1. Во-вторых, при широком наборе условий обучение политике является наиболее экономной моделью обучения с подкреплением, которая объясняет усвоенное поведение5. В-третьих, обучение политике может быть напрямую обусловлено сигналами ошибок поведения (PE) вместо или в дополнение к RPE21,22, связывая их с различными наблюдениями за обучением в областях мозга, получающих дофамин23,24. Наконец, методы обучения политике облегчают явное моделирование значимой изменчивости25 в индивидуальных траекториях поведенческого обучения посредством поиска в пространстве параметризации политики1.

Фактически, это может быть критикой поиска политики в том, что траектории обучения могут быть слишком изменчивыми; хотя эта функция и способствует моделированию индивидуальных различий, она может привести к неоптимальному обучению26,27. Мощное решение — установить оптимальный размер обновления для каждого испытания в соответствии с некоторой эвристикой, определяющей, насколько полезным каждое испытание может быть для обучения2. Если делать это независимо от обратной связи по производительности, которая направляет обучение, это может повысить полезную вариативность, одновременно подавляя шум1,26,28. Такая «скорость адаптивного обучения» привела к фундаментальным достижениям в области машинного обучения28, а также может сделать модели обучения животных более точными29. Таким образом, выводы, полученные в результате изучения политики, привели к появлению интригующей гипотезы о фазовой активности mDA, которая до сих пор не изучалась. Фазическая активность mDA может быть полезным сигналом адаптивной скорости обучения, учитывая ее корреляцию с новыми и значимыми стимулами12, предстоящими действиями13 и ошибками прогнозирования7, все из которых являются полезными эвристиками для определения ключевых моментов, в течение которых скорость обучения должна быть повышена. С другой стороны, активность mDA коррелирует с PE во время обучения птичьим песням30, что позволяет предположить, что у млекопитающих она также может диктовать основанные на ошибках обновления поведенческой политики - роль, более аналогичная передаче RPE для ценностного обучения. Чтобы различать эти возможности, необходимо создать модели политического обучения для решения канонических поведенческих задач животных.

 0.99). Thus, within this context (although not necessarily others42), the magnitude of NAc–DA cue signals correlates only with learned changes in behavioural policy but does not seem to directly regulate preparatory behaviour in anticipation of reward delivery9,43./p>15 air changes hourly. Each ventilated cage (Allentown) was provided with corncob bedding (Shepard Specialty Papers), at least 8 g of nesting material (Bed-r’Nest, The Andersons) and a red mouse tunnel (Bio-Serv). Mice were maintained on a 12:12-h (8 am–8 pm) light/dark cycle and recordings were made between 9 am and 3 pm. The holding room temperature was maintained at 21 ± 1 °C with a relative humidity of 30% to 70%. Irradiated rodent laboratory chow (LabDiet 5053) was provided ad libitum. Following at least 4 days recovery from headcap implantation surgery, animals’ water consumption was restricted to 1.2 ml per day for at least 3 days before training. Mice underwent daily health checks, and water restriction was eased if mice fell below 75% of their original body weight./p>20 days post-injections using custom-built fibre photometry systems (Fig. 2a)56. Two parallel excitation–emission channels through a five-port filter cube (FMC5, Doric Lenses) allowed for simultaneous measurement of RCaMP1b and eYFP fluorescence, the latter channel having the purpose of controlling for the presence of movement artefacts. Fibre-coupled LEDs of 470 nm and 565 nm (M470F3, M565F3, Thorlabs) were connected to excitation ports with acceptance bandwidths of 465–490 nm and 555–570 nm, respectively, with 200-μm, 0.22-NA fibres (Doric Lenses). Light was conveyed between the sample port of the cube and the animal by a 200-μm-core, 0.39-NA fibre (Doric Lenses) terminating in a ceramic ferrule that was connected to the implanted fibre cannula by a ceramic mating sleeve (ADAL1, Thorlabs) using index matching gel to improve coupling efficiency (G608N3, Thorlabs). Light collected from the sample fibre was measured at separate output ports (emission bandwidths 500–540 nm and 600–680 nm) by 600-μm-core, 0.48-NA fibres (Doric Lenses) connected to silicon photoreceivers (2151, Newport)./p> treward/p>3%) and perfused with ice-cold phosphate-buffered saline, followed by paraformaldehyde (4% wt/vol in phosphate-buffered saline). Brains were post-fixed for 2 h at 4 °C and then rinsed in saline. Whole brains were then sectioned (100 μm thickness) using a vibrating microtome (VT-1200, Leica Microsystems). Fibre tip positions were estimated by referencing standard mouse brain coordinates70./p>