딥마인드(DeepMind)가 텍스트 출력 영역을 넘은 단일 일반화 에이전트 게토(Gato)를 구축했다. 게토는 문맥에 근거해 텍스트를 출력하는지, 관절을 움직이는지 혹은 버튼을 누르는지 등 동작을 결정할 수 있다고 한다.
딥마인드 측은 현재 대다수 AI 시스템은 한 번에 한 작업이나 좁은 분야에서 작동한다며 하지만 게토에서 중요한 점은 주로 단일 모델 에이전트가 로봇 제어와 이미지에 대한 설명 부여, 채팅 등 수백 가지 완전히 다른 작업을 수행할 수 있다는 것이라고 말한다.
딥마인드에 따르면 게토는 이미지를 분석하고 설명하고 상호 작용하며 로봇암을 제어해 블록을 쌓아 올리고 아타리 게임 플레 등 604개 작업을 할 수 있도록 훈련받았다고 한다. 보도에선 게토를 지금까지 나오 가장 인상적인 올인원 기계학습 키트라고 표현하며 게토는 인간처럼 사물을 생각하는 범용 인공지능 AGI와는 다르지만 범용 인공 지능을 달성하는 건 아닐까 불안하게 만든다는 의견이 나오기도 한다.
딥마인드 측 관계자는 이에 대해 지금까지 규모가 전부라면서 하지만 더 많은 모달리티, 혁신적인 데이터, 온오프라인으로 이런 스케일링 과제를 해결하는 게 범용 인공지능을 실현하게 될 것이라고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.