자신이 한 행동을 평가하고 스스로 훈련하는 로봇 알고리즘 :EES

“연습하면 완벽해진다”는 문구는 보통 인간에게만 해당되지만, 낯선 환경에 새로 배치된 로봇에게도 좋은 격언입니다.

창고에 도착한 로봇을 상상해 보세요.물건을 놓는 것과 같은 훈련된 기술이 패키지로 제공되고, 이제 익숙하지 않은 선반에서 품목을 집어야 합니다. 처음에, 기계는 새로운 주변 환경에 익숙해져야 하기 때문에 이 부분에서 어려움을 겪습니다. 그리고 로봇은 작업 내에서 어떤 기술을 개선해야 하는지 먼저 이해한 다음 해당 동작을 연습을 통해 전문화(또는 매개변수화)해야 합니다.

그래서 현장에 있는 인간이 로봇의 성능을 최적화하도록 프로그래밍할 수 있지만, MIT의 컴퓨터 과학 및 인공지능 연구소(CSAIL)와 AI 연구소의 연구자들은 더 효과적인 대안을 개발했습니다. 즉 이것은 EES라 불리는 알고리즘입니다.

<위 4개의 패널은 EES알고리즘으로 빗자루로 쓸고 토러스 모양의 물건을 옮기는 4족 보행 로봇을 보여줍니다.>

EES 알고리즘의 작동 원리

EES(Estimate, Extrapolate, and Situate) 알고리즘은 로봇이 수행해야 할 작업에서 어느 부분이 부족한지 평가하고, 그 특정 부분을 개선하기 위해 추가 연습이 필요한지를 결정하는 방식으로 작동합니다. 로봇이 자율적으로 기술을 연습하고 향상시키기 위한 방법입니다. 이 알고리즘은 다음과 같은 단계로 작동합니다:

Estimate(추정): 로봇이 수행해야 할 작업이나 기술(예: 물건 놓기, 청소 등)에 대해, 현재 로봇이 얼마나 잘 수행하는지 평가합니다. 이 과정에서 로봇은 작업의 성공 가능성을 예측하고, 어느 정도의 연습이 필요한지를 추정합니다.
Extrapolate(추론): 로봇이 작업을 더 잘 수행하기 위해 필요한 기술을 개선할 때, 이 개선이 전체 작업 수행 능력에 얼마나 긍정적인 영향을 미칠지를 예측합니다. 이를 통해 로봇은 특정 기술에 대한 추가 연습의 중요성을 이해하게 됩니다.
Situate(위치 파악): 로봇은 시뮬레이션된 환경에서 연습을 진행한 후, 실제 환경에서도 이 기술을 사용할 수 있도록 합니다. 로봇은 각 시도 후 결과를 분석하고, 이를 바탕으로 필요한 경우 더 많은 연습을 통해 기술을 다듬습니다.

EES 알고리즘은 로봇이 새로운 환경에 빠르게 적응하고, 최소한의 연습으로도 중요한 기술을 습득할 수 있게 하며, 이를 통해 로봇의 자율성과 효율성을 크게 향상시킵니다

EES 알고리즘과 강화학습의 차이

EES(Estimate, Extrapolate, and Situate) 알고리즘과 강화학습(Reinforcement Learning, RL)은 모두 로봇이나 인공지능 시스템이 자율적으로 기술을 학습하고 환경에 적응할 수 있도록 돕는 방법이지만, 접근 방식과 학습 과정에서의 차이가 있습니다.

1. 학습 접근 방식

EES 알고리즘: EES는 로봇이 수행해야 할 작업에서 어느 부분이 부족한지 평가하고, 그 특정 부분을 개선하기 위해 추가 연습이 필요한지를 결정하는 방식으로 작동합니다. 이를 통해 로봇은 자신이 이미 알고 있는 기술들 중에서 어떤 것이 현재 상황에 가장 중요한지 파악하고, 그 기술을 강화하는 데 집중합니다. 이 과정은 주로 로봇이 다양한 환경에 빠르게 적응할 수 있도록 돕기 위한 것입니다
강화학습(RL): 강화학습은 에이전트(로봇 또는 AI)가 환경과 상호작용하면서 보상을 극대화하는 행동을 학습하는 과정입니다. 에이전트는 다양한 행동을 시도하고, 그 결과로 얻은 보상에 따라 행동 방식을 조정해 나갑니다. RL은 시도와 오류를 반복하며, 장기적인 목표를 달성하기 위해 행동 전략을 학습하는 데 중점을 둡니다 (ApproachableAI).

2. 학습 효율성

EES: EES는 기존의 강화학습보다 더 적은 연습 데이터를 사용해 특정 기술을 향상시킬 수 있는 능력을 강조합니다. 이는 로봇이 이미 알고 있는 기술을 바탕으로 효율적으로 학습할 수 있게 하여, 수천 또는 수백만 번의 시도가 필요한 강화학습에 비해 훨씬 더 적은 시도로도 성과를 낼 수 있습니다
강화학습: 강화학습은 대개 많은 양의 데이터와 시도 횟수를 필요로 합니다. 에이전트는 다양한 환경에서 수많은 시도와 오류를 통해 학습하며, 시간이 많이 걸릴 수 있습니다. 하지만 이 방법은 다양한 상황에서 강력한 일반화 능력을 제공할 수 있습니다.

3. 적용 영역

EES: EES는 로봇이 새로운 환경에 배치되었을 때, 자율적으로 기술을 개선하고 특정 작업을 효율적으로 수행하도록 돕는 데 중점을 둡니다. 이는 특정 작업이나 환경에 대한 맞춤형 학습에 적합합니다
강화학습: RL은 게임, 로봇 제어, 추천 시스템 등 다양한 응용 분야에 적용될 수 있으며, 장기적인 보상을 극대화하는 복잡한 의사결정 문제를 해결하는 데 강점을 가집니다.

결론적으로, EES는 로봇이 빠르고 효율적으로 특정 작업을 연습하고 개선할 수 있도록 하는 데 중점을 두며, 강화학습은 다양한 환경에서 보상을 최대화하기 위해 에이전트가 스스로 행동 전략을 학습하도록 하는 일반적인 접근 방식입니다.

EES 알고리즘과 유사한 연구를 진행하는 곳은 여러 연구기관과 대학이 있습니다. 다음은 관련된 연구를 하고 있는 몇몇 기관들입니다:

스탠포드 대학교의 AI 연구소: 스탠포드 인공지능 연구소(SAIL)는 자율 학습 로봇에 대한 연구를 활발히 진행하고 있습니다. 이 연구소에서는 로봇이 다양한 환경에서 자율적으로 학습하고 적응할 수 있는 기술을 개발하고 있습니다.
카네기 멜런 대학교의 로보틱스 연구소: 카네기 멜런 대학교의 로보틱스 연구소는 자율 로봇 시스템과 강화 학습(reinforcement learning)에 중점을 둔 연구를 수행하고 있습니다. 특히, 로봇이 실제 환경에서 스스로 학습하여 다양한 작업을 수행할 수 있도록 하는 알고리즘 개발에 주력하고 있습니다.
구글의 DeepMind: DeepMind는 강화 학습을 통해 로봇이 다양한 작업을 수행할 수 있도록 하는 연구를 진행 중입니다. 이들은 시뮬레이션 환경에서 로봇이 학습한 기술을 실제 환경에 적용하는 데 중점을 두고 있습니다.
MIT CSAIL: 질문에 언급된 연구를 수행한 MIT의 컴퓨터 과학 및 인공지능 연구소(CSAIL)도 유사한 연구를 지속적으로 진행하고 있습니다. 이곳에서는 로봇이 자율적으로 환경에 적응하고 학습할 수 있는 다양한 알고리즘을 개발하고 있습니다

[crp]

<이하 광고>