강화학습의 새로운 지평선이 열리다.(feat. 파블로프의 개)
본문 바로가기
Technology

강화학습의 새로운 지평선이 열리다.(feat. 파블로프의 개)

by 누메노스 2023. 1. 25.
반응형

모르는 사람이 없는 파블로프의 개 실험

개요

 원인 => 보상으로 연결되는 기존 강화학습의 틀을 깨는 연구가 진행되고 있습니다.
너무나도 유명한 고전적 조건형성 실험 파블로프의 개
  • 파블로프의 개 실험은 개가 강화 학습 과정을 통해 특정 자극(메트로놈 소리나 그림)을 보상(음식)과 연관시키도록 훈련될 수 있음을 보여주었습니다.
  • 강화 학습으로 알려진 이 프로세스는 대부분의 동물이 세상과 상호 작용하는 방식으로 알려져 있습니다.
  • 1970년대 실험 이후 대부분의 사람들이 알고 있는 동물 학습 이론은 시행착오를 통해 학습한다는 것입니다.
  • 신호와 보상의 연관성을 나타내는 일련의 과정은 다음과 같습니다.
    • 동물은 신호가 주어질 경우 보상이 발생할 시기를 예측합니다.
    • 예상 보상이 실제로 발생하는지 확인하기 위해 기다립니다.
    • 예측과 결과의 차이를 계산(오류)
    • 오류 추정치를 사용하여 향후 발생에 대한 예측을 업데이트합니다.
파블로프의 개를 기반으로 활발하게 진행된 연구
  • 시행 착오를 통한 강화 학습 접근 방식은 20세기 후반에 다음과 같이 발전되었습니다.
    • 강화학습 기반 심층신경망 학습을 통한 공학 문제 해결
    • 뇌의 도파민 수치 변동과 예측 오류 사이의 상관관계를 식별한 1997년 논문
  • 하지만 강화학습의 예측 오류 모델은 도파민 활동의 불일치로 인해 어려움을 겪었습니다.

에이전트의 행동에 따른 보상으로 신경망을 업데이트하는 강화학습 기반 학습 방법 - 출처 : http://doi.org/10.5370/KIEE.2021.70.3.506

최근에 활발하게 연구되고 있는 강화학습은 현재 상태 s에 대한 보상 r을 기반으로 현재 상태를 추정하고 반복적으로 학습함으로써 미래 누적보상이 극대화가 되는 정책을 찾는 방식으로 연구되어 왔습니다. 
원인에서 보상을 추정하는 방식이 아닌 보상을 통해 원인을 파악하는 방식
  • 샌프란시스코 캘리포니아 대학의 연구원들이 수행한 새로운 연구는 연구원들이 이전에 거꾸로 가지고 있었다는 것을 시사하는 새로운 연관 학습 모델을 제안했습니다.
  • UC샌프란시스코 연구진이 제안한 새로운 연상 학습 모델은 원인 => 보상이 아닌 보상 => 원인으로 연관시킨다는 점에서 기존 모델과 큰 차이가 있습니다.
  • 제안된 새로운 모델은 동물이 보상이나 처벌을 받을 때 결과를 유발한 원인을 결정하기 위해 자신의 기억을 되돌아본다는 것에 초점을 맞춥니다.
  • 새로운 모델에서 도파민의 역할은 미래의 보상이나 처벌에 대한 잠재적인 원인으로 작용할 만큼 충분히 의미 있는 사건을 기록하는 것입니다.
  • 새 모델은 이전 모델의 두 가지 문제를 해결합니다.
    • 시간 단위에 대한 민감도
    • 컴퓨터 알고리즘 구현 용이성
  • 시간 척도 문제는 원인과 결과가 밀리초, 분 또는 심지어 시간 단위로 분리될 수 있다는 것입니다.
  • 새로운 모델은 가능한 원인에 대한 이유를 추정할 수 있는 반면(과거의 원인을 되짚어보기 때문), 이전 모델은 항상 미래 누적보상을 추정하게 되므로(미래 누적보상을 추정하기 때문) 신경망의 학습에 오차가 발생할 가능성이 높습니다.
  • 샌프란시스코 캘리포니아 대학의 연구원들이 제안한 새로운 모델은 의미 있는 사건이 발생했을 때 원인을 찾기 위해 가능한 모든 단일 단서를 기반으로 예측을 시도하는 것보다 기억을 통해 과거를 살펴보는 것이 더 간단하다고 주장합니다.
기존 강화학습의 관념을 깨버리는 실험결과들
  • 연구원인 정 박사와 남부디리 박사는 새 모델을 테스트하기 위해 특별히 고안된 마우스, 버저 및 설탕 용액을 포함하여 11가지 실험을 수행했습니다.
  • 연구팀은 학습 및 중독과 관련이 있는 뇌의 영역인 측좌핵에서 실시간으로 방출되는 도파민의 양을 측정하는 실험을 수행했습니다.
  • 연구팀이 실험한 모든 실험에서 강화 학습의 새로운 모델의 가설이 일치했다고 합니다.
강화학습의 새로운 지평선이 열리다??
  • UC샌프란시스코 연구진이 제안한 새로운 학습 모델은 신경과학 분야에 큰 파장을 불러일으킨 전향적 사고에서 후향적 사고로의 180° 전환을 의미합니다.
  • 프린스턴 대학의 신경과학자 라나 위튼은 새로운 발견이 시사하는 바가 많고 고무적인 새로운 방향을 제시한다고 말했습니다.
  • 새로운 연구 결과를 확인하려면 더 많은 실험이 필요하지만 확인되면 신경 과학을 넘어선 파급 효과가 있을 수 있습니다.
  • 현재 인공지능 기반 강화학습의 접근 방식이 뇌가 작동하는 방식과 동일하지 않으므로, 제안된 방식을 심층 신경망 기반 강화학습에 적용한 실험결과가 기대됩니다.

댓글