banner
홈페이지 / 소식 / 중변연계 도파민은 행동으로부터 학습하는 속도를 조정합니다
소식

중변연계 도파민은 행동으로부터 학습하는 속도를 조정합니다

May 27, 2023May 27, 2023

Nature 614권, 294~302페이지(2023)이 기사 인용

20,000회 액세스

2 인용

109 알트메트릭

측정항목 세부정보

인공 에이전트 및 로봇 훈련의 최근 성공은 행동 정책의 직접 학습과 가치 기능을 통한 간접 학습의 조합에서 비롯됩니다. 정책 학습과 가치 학습은 각각 행동 성과를 최적화하고 예측을 보상하는 별도의 알고리즘을 사용합니다. 동물에서는 행동 학습과 중변연계 도파민 신호 전달의 역할이 보상 예측과 관련하여 광범위하게 평가되었습니다. 그러나 지금까지 직접적인 정책 학습이 어떻게 우리의 이해에 영향을 미칠 수 있는지에 대한 고려는 거의 없었습니다5. 여기서 우리는 순진하고 머리가 제한된 생쥐가 추적 조절 패러다임을 학습함에 따라 행동 정책이 어떻게 진화했는지 이해하기 위해 안면 및 신체 움직임의 포괄적인 데이터 세트를 사용했습니다. 초기 도파민 보상 반응의 개인차는 학습된 행동 정책의 출현과 상관 관계가 있었지만 예측 단서에 대한 추정 가치 인코딩의 출현은 아닙니다. 마찬가지로, 중변연계 도파민의 생리학적으로 보정된 조작은 가치 학습과 일치하지 않는 여러 효과를 생성했지만, 행동 정책 학습을 위해 오류 신호가 아닌 적응 속도를 설정하기 위해 도파민 신호를 사용하는 신경망 기반 모델에 의해 예측되었습니다. 이 연구는 위상 도파민 활동이 행동 정책의 직접적인 학습을 조절하여 동물 학습을 위한 강화 학습 모델의 설명력을 확장할 수 있다는 강력한 증거를 제공합니다6.

생물학적 및 인공적 에이전트는 환경 경험을 통해 행동을 최적화하는 방법을 배웁니다. 강화 학습 이론은 에이전트가 훈련을 통해 반복적으로 성공을 향상시킬 수 있는 알고리즘을 설명합니다3. 환경에 대한 경험은 수행되는 작업('정책 학습')을 직접 결정하는 에이전트의 행동 '정책'의 성공 또는 간접적으로 작업을 안내하는 에이전트의 주관적인 보상 기대('가치 학습')에 의해 평가될 수 있습니다. 지난 수십 년 동안 중뇌 도파민 뉴런(mDA) 활동이 가치 학습을 위한 예측 업데이트 신호(RPE(보상 예측 오류)7)와 어떻게 일치하는지에 대한 많은 연구가 진행되었습니다4. 그러나 mDA 활동은 또한 가치 학습 모델의 예측으로 완전히 해결되지 않을 수 있는 신호와 기능의 이질적인 혼합을 반영합니다8,9,10,11,12. 단계적 mDA 활동은 조치의 생성 및 모니터링10,13,14,15,16,17,18과 얽혀 있을 수 있으며 행동 정책 결정과 관련된 영역의 입력에 의해 적어도 부분적으로 결정됩니다19. 이를 위해서는 고려된 강화 학습 알고리즘의 범위를 넓히는 것이 생물학적 작용제의 위상 mDA 신호에 대한 이해에 어떻게 도움이 될 수 있는지에 대한 탐구가 필요합니다.

직접적인 정책 학습은 특히 동물에 의한 새로운 작업 획득의 맥락에서 도파민의 기능을 설명하는 '계산 및 기계론적 기본 요소'6를 제공하기 위해 미개척된 잠재력5,20을 제공합니다. 첫째, 직접적인 정책 학습 방법은 행동하는 동물이 직면하는 문제와 유사한 로봇 공학의 구체화된 학습 문제에서 상당한 성공을 거두었습니다1. 둘째, 다양한 조건 하에서 정책 학습은 학습된 행동을 설명하는 가장 간결한 강화 학습 모델입니다5. 셋째, 정책 학습은 RPE 대신 또는 추가로 행동 수행 오류(PE) 신호에 의해 직접적으로 구동될 수 있으며 이를 도파민 수용 뇌 영역의 학습에 대한 다양한 관찰과 연결합니다. 마지막으로, 정책 학습 방법은 정책 매개변수화 공간을 통한 검색으로 개인 행동 학습 궤적의 의미 있는 변동성25의 명시적인 모델링을 촉진합니다.

실제로 학습 궤도가 너무 가변적일 수 있다는 것은 정책 검색에 대한 비판일 수 있습니다. 개인차를 모델링하는 데 도움이 되지만 이 기능은 최적이 아닌 학습을 생성할 수 있습니다. 강력한 솔루션은 각 시행이 학습에 얼마나 유용한지에 대한 일부 경험적 방법에 따라 각 시행에 대한 최적의 업데이트 크기를 설정하는 것입니다2. 학습을 지시하는 성능 피드백과 독립적으로 그렇게 하면 노이즈를 억제하면서 유용한 가변성을 향상시킬 수 있습니다1,26,28. 이러한 '적응 학습률'은 기계 학습28의 근본적인 발전을 가져왔고 동물 학습 모델을 더욱 정확하게 만들 수 있습니다29. 따라서 정책 학습을 통해 얻은 통찰력은 지금까지 탐구되지 않은 단계적 mDA 활동에 대한 흥미로운 가설로 이어집니다. 단계적 mDA 활동은 새롭고 두드러진 자극12, 향후 조치13 및 예측 오류7와의 상관관계를 고려할 때 유용한 적응형 학습률 신호가 될 수 있으며, 이는 모두 학습률을 높여야 하는 주요 순간을 식별하는 데 유용한 휴리스틱입니다. 또는 mDA 활동은 조류 노래 학습 중 PE와 상관관계가 있으며, 이는 포유류에서 행동 정책에 대한 오류 기반 업데이트를 지시할 수도 있음을 시사합니다. 이는 가치 학습을 위한 RPE 전달과 더 유사한 역할입니다. 이러한 가능성을 구별하려면 표준 동물 행동 작업의 정책 학습 모델을 확립해야 합니다.

 0.99). Thus, within this context (although not necessarily others42), the magnitude of NAc–DA cue signals correlates only with learned changes in behavioural policy but does not seem to directly regulate preparatory behaviour in anticipation of reward delivery9,43./p>15 air changes hourly. Each ventilated cage (Allentown) was provided with corncob bedding (Shepard Specialty Papers), at least 8 g of nesting material (Bed-r’Nest, The Andersons) and a red mouse tunnel (Bio-Serv). Mice were maintained on a 12:12-h (8 am–8 pm) light/dark cycle and recordings were made between 9 am and 3 pm. The holding room temperature was maintained at 21 ± 1 °C with a relative humidity of 30% to 70%. Irradiated rodent laboratory chow (LabDiet 5053) was provided ad libitum. Following at least 4 days recovery from headcap implantation surgery, animals’ water consumption was restricted to 1.2 ml per day for at least 3 days before training. Mice underwent daily health checks, and water restriction was eased if mice fell below 75% of their original body weight./p>20 days post-injections using custom-built fibre photometry systems (Fig. 2a)56. Two parallel excitation–emission channels through a five-port filter cube (FMC5, Doric Lenses) allowed for simultaneous measurement of RCaMP1b and eYFP fluorescence, the latter channel having the purpose of controlling for the presence of movement artefacts. Fibre-coupled LEDs of 470 nm and 565 nm (M470F3, M565F3, Thorlabs) were connected to excitation ports with acceptance bandwidths of 465–490 nm and 555–570 nm, respectively, with 200-μm, 0.22-NA fibres (Doric Lenses). Light was conveyed between the sample port of the cube and the animal by a 200-μm-core, 0.39-NA fibre (Doric Lenses) terminating in a ceramic ferrule that was connected to the implanted fibre cannula by a ceramic mating sleeve (ADAL1, Thorlabs) using index matching gel to improve coupling efficiency (G608N3, Thorlabs). Light collected from the sample fibre was measured at separate output ports (emission bandwidths 500–540 nm and 600–680 nm) by 600-μm-core, 0.48-NA fibres (Doric Lenses) connected to silicon photoreceivers (2151, Newport)./p> treward/p>3%) and perfused with ice-cold phosphate-buffered saline, followed by paraformaldehyde (4% wt/vol in phosphate-buffered saline). Brains were post-fixed for 2 h at 4 °C and then rinsed in saline. Whole brains were then sectioned (100 μm thickness) using a vibrating microtome (VT-1200, Leica Microsystems). Fibre tip positions were estimated by referencing standard mouse brain coordinates70./p>