“AI도 당근이 필요하다: ‘Episodic Curiosity through Reachability’

AI의 학습에도 호기심을 유발하는 당근이 필요하다는 결론이 나왔습니다. 이 연구는  “Episodic Curiosity through Reachability”라는 주제 하에 만들어진 강화학습(이하 RL)의 새로운 호기심 모델입니다. 이 모델은 구글 브레인 팀, DeepMind 그리고 ETH 취리히가 공동 연구한 결과물로, 인공지능 에이전트의 학습을 더욱 효율적으로 만들기 위한 방안을 제시합니다.

Episodic Curiosity through Reachability의  배경

강화학습은 머신러닝 분야에서 인공지능(이하 AI) 에이전트가 수행할 행동에 대해 보상을 받으면서 학습하는 방법론으로, 특히 까다로운 환경에서 성공적인 결과를 낳은 바 있습니다. 예를 들어, DeepMind의 DQN 알고리즘은 고전적인 Atari 게임을, AlphaGo Zero는 바둑을 두는데 크게 성공했습니다. 그러나, 강화학습은 에이전트에게 제공되는 피드백이 희박한 실제 환경에서는 그리 효과적이지 않아 한계에 직면합니다.

이러한 한계를 극복하기 위해 “Episodic Curiosity through Reachability”는 에이전트의 호기심을 자극할 수 있는 새로운 보상 모델을 제안합니다. 전통적인 강화학습에서는 학습 중 오류 예측을 통해 호기심을 자극하는 방법이 있었지만, 이 방식은 때때로 비효율적이고 문제 해결에 필요한 지점에서 벗어나기도 합니다. 예를 들어, 놀고 있는 TV 채널을 무작위로 바꾸는 행동을 통해서도 예측 오류가 발생할 수 있습니다. 이 경우 에이전트는 TV에 집착하게 되어, 실제로 더 나은 탐사를 또는 작업 해결을 하지 못하게 됩니다.

 

주요 기능 및 특징

“Episodic Curiosity through Reachability”의 핵심은 에이전트가 환경의 관찰을 에피소드 메모리에 저장하고, 메모리에 나타나지 않은 새로운 관찰을 하도록 보상받는 것입니다. 기존 메모리에 없는 새로운 관찰은 ‘새로움’으로 정의되며, 이는 에이전트를 새로움을 추구하게 하여 더욱 효과적인 학습을 가능하게 합니다.

또한 이 모델은 딥러닝을 활용하여 두 경험이 얼마나 유사한지를 측정하는 심층 신경망을 사용합니다. 이는 단순히 동일한 관찰을 찾는 것이 아니라, 시간적으로 얼마나 근접하게 일어났는지를 통해 관찰 간의 유사성을 판단합니다. 이러한 접근 방식은 기존 호기심 기반 모델이 가지는 ‘자기 탐닉적’인 즉각적 보상을 탐색하는 경향을 줄입니다.

실험 및 결과

연구진은 ViZDoom과 DMLab이라는 두 가지 복잡한 3D 환경에서 이 새로운 접근 방식을 테스트했습니다. 각 환경에서 에이전트는 미로 내 목표물 찾기와 양호한 객체 수집과 같은 다양한 문제를 해결해야 했습니다. 실험 결과, 기존 방법처럼 불필요한 곳에 매달리는 것이 아니라, 더욱 타당하고 신뢰할 수 있는 탐사 행동을 학습하는데 성공했습니다.

예를 들어, DMLab 환경에서의 표준 설정을 통해 기존 방법이 태그로 벽을 칠하는 데 시간을 낭비하는 반면, 새로운 에피소드 호기심 모델은 이렇게 비효율적인 행동을 억제하고 현실적으로 목표에 도달하는 어려운 관찰을 추구하게 됩니다.

결과적으로, “Episodic Curiosity through Reachability”는 에이전트의 행동을 합리적으로 유도하며, 에이전트가 특정 지점에서 우왕좌왕하지 않고, 고립된 상황에서 벗어나 목표를 달성할 수 있도록 합니다.

결론 및 앞으로의 방향

이 연구는 호기심을 더 깊이 탐구하고 지능적인 탐사 행동을 유도하는 새로운 경로를 열었습니다. 이 작업을 통해 구글 브레인 팀과 DeepMind, ETH 취리히는 강화학습의 유용성을 증대시키고 실제 세계에서의 문제를 해결할 수 있는 가능성을 높였습니다. 연구 결과는 미래 AI 기술 발전에 큰 영향을 미칠 것으로 보입니다.

© 2023 나의 웹 페이지