로봇팔이 알아서 배운다? 자가 개선형 AI

구글 딥마인드가 단 100회 데모로 다양한 로봇팔 조작을 습득하고 자가 생성 데이터를 사용해 더 능력을 높일 수 있는 자체 개선형 AI 에이전트인 로보캣(RoboCat)을 발표했다.

로보캣은 학습 외 목표에도 유연하게 대응한다. 다른 실험에선 인간이 손으로 과일 모형을 움직이는 상태로 보여줬다. 로보캣은 인간 손이 반영된 데이터로 훈련한 적이 없었지만 손으로 오렌지를 들어 올리면 좋다는 걸 이해한다. 다른 기종 로봇팔에도 대응한다.

로보캣은 상황 변화에도 빠르게 대응한다. 로보캣은 구글 딥마인드가 개발한 멀티모달 모델인 가토(Gato)를 기반으로 한다. 로보캣 개발에 있어 구글 딥마인드는 단어와 이미지, 동작을 처리할 수 있는 가토 아키텍처와 다양한 기종 로봇팔로 수백 번 다른 작업을 해결하는 이미지, 이에 이르는 액션 시퀀스로 이뤄진 방대한 학습 데이터세트를 이용했다. 이후 구글 딥마인드는 로보캣에서 자가 개선 학습을 시작해 경험이 없는 작업을 습득했다.

새로운 작업 습득은 5단계로 나뉜다. 인간이 조작하는 로봇팔에 의해 새로운 태스크 데모를 100∼1,000회 실시한다. 로보캣을 새로운 태스크나 로봇팔로 파인 튜닝해 새로운 태스크에 특화한 스핀오프 에이전트를 작성한다. 이어 스핀오프 에이전트는 새로운 작업과 로봇팔을 평균 1만 회 훈련하고 더 많은 학습 데이터를 자체 생성한다. 다음으로 데모와 자체 생성 데이터를 로보캣 기존 학습 데이터세트에 통합한다. 마지막으로 새로운 학습 데이터세트로 새 버전 로보캣을 학습한다.

로보캣은 과제를 배울수록 새로운 과제 습득 능력을 향상시키는 사이클을 실현하고 있다. 로보캣 초기 버전은 데모 500회에서 1개 작업을 학습 후 테스트에서 36% 성공률을 보였다. 하지만 다양한 작업으로 학습 후에는 동일 작업 성공률을 2배 이상으로 높일 수 있었다.

구글 딥마인드는 인간이 있는 분야 학습을 깊게 하면서 다양한 스킬을 습득해 나가는 것과 같이 로보캣은 경험을 거듭해 능력을 향상시켜 나갈 수 있다고 밝히고 있다. 독자적으로 스킬을 학습하고 빠르게 자가 개선하는 이 능력은 다른 로봇에 적용할 수 있는 유용한 신세대 범용 로봇 에이전트 발판이 될 것이라고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.