LLM으로 로봇 훈련 돕는 기술 개발했다

로봇에게 새로운 기술을 습득시키려면 보통 먼저 시뮬레이션 환경에서 훈련을 한 다음 실제 환경에 배포한다. 하지만 이 때 시뮬레이션 환경과 실제 환경 간에 격차가 문제가 된다. 엔비디아와 펜실베이니아 대학, 텍사스 오스틴 대학 등 연구팀이 이 격차를 대규모 언어 모델로 자동화하는 기술인 닥터유레카(DrEureka)를 개발했다.

로봇에게 습득시키고 싶은 기술을 시뮬레이션 환경에서 훈련한 뒤 실제 환경에 배포하는 접근 방식에선 보통 작업에 대한 올바른 행동을 찾는 보상 함수와 시뮬레이션 환경 내 물리 매개변수를 수동으로 설계하고 조정한다. 이 프로세스에는 시간과 인력 비용이 들기 때문에 연구팀은 대규모 언어 모델을 사용해 이 작업을 자동화하는 기술을 개발하기로 했다.

연구팀이 시스템 기반으로 삼은 건 엔비디아 리서치(NVIDIA Research)가 개발한 AI 에이전트 유레카(Eureka)다. 유레카는 로봇 훈련을 위한 보상 알고리즘을 자율 생성하는 AI 에이전트로 대규모 언어 모델을 사용해 최적의 보상 함수를 생성할 수 있다. 이번에 연구팀은 유레카 시뮬레이션 환경 물리 매개변수를 무작위화해 로봇이 실제 세계에서 맞닥뜨릴 수 있는 예측 불가능한 상황에 시뮬레이션 환경에서의 학습을 일반화할 수 있도록 한 닥터유레카를 발표했다.

닥터유레카를 사용해 로봇 강아지에게 4족 보행 기술을 훈련한 실험에선 인간이 설계한 기존 시스템보다 전진 속도는 34%, 다양한 지형에서의 이동 거리는 20% 뛰어난 것으로 확인됐다. 또 로봇 손으로 루빅스큐브를 회전시키는 작업에선 닥터유레카 훈련을 받은 쪽이 사람이 설계한 훈련보다 300% 더 많이 큐브를 회전시켰다고 한다.

더불어 연구팀은 4족 보행 로봇 강아지에게 요가볼 위에서 균형을 잡고 걷기 작업을 닥터유레카로 학습시키는 실험도 진행했다.

사람이 로봇 강아지 목줄을 잡고 있으며 그 움직임에 맞춰 로봇 강아지도 요가볼 위에서 이동한다. 지형이 변해도 떨어지지 않고 요가볼 위에서 계속 균형을 잡는다. 또 닥터유레카로 훈련한 로봇 강아지가 공기가 빠져 점점 쪼그라드는 요가볼 위에서도 능숙하게 균형을 잡는 모습도 볼 수 있다. 닥터유레카 코드는 깃허브에서 오픈소스로 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.