
로봇 기업 피규어(Figure)가 휴머노이드 제어·지각·언어 이해를 통합한 범용 VLA(Vision-Language-Action) 모델인 헬릭스(Helix)를 발표했다. 헬릭스는 500시간 분량 학습 데이터로 로봇 상반신 전체를 정밀하게 제어할 수 있는 점이 특징이며 가정용 로봇 실용화를 위한 중요한 진전으로 주목받고 있다.
공장과 같은 관리된 환경과 달리 가정에는 유리 제품, 의류, 흩어진 장난감 등 예측 불가능한 형상, 크기, 색상, 질감을 가진 물체가 다수 존재한다. 로봇이 가정에서 유용하려면 그 중에서도 처음 보는 물체에 대해 온디맨드로 새로운 지능적 행동을 생성할 수 있는 능력이 필요하다.
피규어에 따르면 현재 로봇 공학에서는 가정 환경에 대응하기 위한 확장이 어렵다고 한다. 로봇에 새로운 행동을 하나 가르치는 데에도 박사급 전문가에 따른 수 시간 수작업 프로그래밍이나 수천 번 실연 데이터가 필요해 비용이 가정용 로봇으로서는 비현실적인 수준이 된다고 한다.
이에 영상과 이미지를 학습할 수 있는 시각 언어 모델을 응용해 직접 로봇 동작으로 변환해 이전까지 무수한 실연이 필요했던 새로운 움직임을 자연어로 말하는 것만으로도 즉시 습득할 수 있게 되는 게 헬릭스 콘셉트다.
헬릭스는 휴머노이드 상반신 전체를 고속으로 정교하게 제어하는 첫 시스템1·시스템2형 VLA 모델로 개발됐다. VLM은 범용적이지만 속도가 느리고 로봇 시각 운동 제어는 고속이지만 범용성이 부족하다는 문제를 헬릭스는 상호 통신하는 보완적 시스템 2개를 통해 해결하고 있다.
시스템2는 파라미터 수 70억인 오픈소스·오픈웨이트 VLM을 기반으로 하며 단안 로봇 이미지와 로봇 손목 자세 및 손가락 위치를 처리한다. 장면 이해와 언어 이해를 담당하고 물체와 맥락에 대한 폭넓은 일반화를 가능하게 한다.
한편 시스템1은 파라미터 800억인 트랜스포머 모델로 시뮬레이션에서 사전 학습된 완전 합성곱 신경망을 사용한다. S2와 같은 입력을 받지만 더 높은 응답성 제어를 실현하기 위해 더 높은 빈도로 처리를 수행한다.
시스템2는 고수준 목표에 대해 천천히 생각하고 시스템1은 실시간 동작을 실행하고 조정하는 빠른 사고를 수행한다. 예를 들어 다른 로봇과 협조하는 동작 시 시스템1은 파트너 로봇이 변화하는 움직임에 빠르게 적응하고 시스템2가 설정한 목표를 달성한다.
데이터세트에 관해서는 500시간 고품질 원격 조작 행동 데이터를 수집했다고 한다. 자연어에 의한 조건부여를 위해 온보드 카메라 영상 클립에 대해 자동 라벨링 VLM을 사용하고 이 비디오에서 볼 수 있는 동작을 실현하기 위해 로봇에 어떤 지시를 했을지라는 형태로 사후적 지시를 생성한다.
피규어는 헬릭스가 아직은 어디까지나 프로젝트 초기 단계지만 피규어가 지닌 휴머노이드 로봇 행동을 확장하는 데 혁신적인 한 걸음이 되며 일상적인 가정 환경에서 로봇이 지원을 하는 미래로 가는 중요한 한 걸음이라고 평가하고 있다. 관련 내용은 이곳에서 확인할 수 있다.