엔비디아와 워싱턴대학 연구팀이 로봇팔에 특정 개체를 정확하게 조작할 뿐 아니라 자연어에서 객체 추상적 개념을 이해하는 기계학습 프레임워크인 클립포트(CLIPort)를 발표했다.
최근 연구에선 종단간 네트워크를 통해 AI가 공간 추론을 필요로 하는 교묘한 조작 기술을 습득할 수 있는 것으로 나타났다. 하지만 기존 방법으로는 한 번 습득한 기술을 일반화하고 새로운 기술에 적용하거나 동일 개념을 다른 기술로 전용할 수 없는 게 많다고 지적한다. 또 대규모 데이터 학습을 통해 시각과 언어 일반화 가능한 의미 학습이 상당히 진전이 이뤄졌지만 이는 정확한 작업에 필요한 공간적 이해가 결여되어 있다는 것.
연구팀은 시각 기반 조작을 실현하기 위해 공간론적 정확성을 가진 트랜스포터 네트워크(Transporter Networks) 아키텍처와 언어에 따라 다양한 이미지 의미를 이해하는 클립 아키텍처를 결합한 클립포트라는 프레임워크를 개발했다.
또 로봇팔을 조작하기 위해 두 아키텍처를 결합하는 발상은 시각 피질에 도달한 시각 정보가 대상 색상과 형태 정보 처리를 하는 경로와 위치, 운동 정보 처리 경로 2가지로 처리되고 있는 2가지 시각 경로 가설(Two-streams hypothesis)로 촉발된 것이라고 한다.
클립포트는 객체 방향이나 상태 인스턴스 분할, 구문 구조 등 명시적 표현을 하지 않아도 자연어에 의해 지시된 다양한 작업을 수행한다. 연구팀은 시연을 통해 천을 접고 펼치고 흩어진 물체를 담아 그릇에 넣고 지시한 물체를 상자에 넣고 체스 프레임을 옮기고 흩어진 물에를 쓸더 담고 체리를 따서 상자에 넣고 상자에 들어간 문자를 읽고 물체를 지시한 상자에 넣고 로프를 지시대로 움직이는 등 9가지 작업을 준비했지만 데이터세트 수는 불과 179개였다고 한다.
클립포트는 그릇 위치를 방해하는 테스트에서도 정확하게 그릇을 블록에 넣는데 성공했다. 또 클립포트가 물체를 인식하는데 사용하는 이미지 인식 알고리즘인 클립은 사전에 학습하던 물체 뿐 아니라 처음 보는 물체를 식별할 수 있다. 지시한 물체를 상자에 넣는 테스트에서도 지금까지 클립이 본 적 없는 푸른 화이트보드 마커를 넣도록 지시하자 로봇팔은 정확하게 해당 마커를 잡았다. 클립포트는 그 밖에도 체스 프레임을 지시대로 움직이거나 특정 물체를 지정된 상자에 넣고 커피콩을 쓸어 모으거나 다양한 작업을 완료할 수 있었다고 한다. 관련 내용은 이곳에서 확인할 수 있다.