테크레시피

생성형AI로 실제 사무실 작업 해결을…

구글 딥마인드가 제미나이(Gemini) 1.5 최대 100만 토큰이라는 긴 컨텍스트 윈도를 활용해 사무실 내 작업을 자연어로 해결할 수 있게 됐다는 내용 논문을 발표하고 데모 영상을 공개했다.

컨텍스트 윈도가 큰 AI 모델은 한 번에 많은 정보를 다룰 수 있다. 이번에 딥마인드는 사무실이나 집을 안내하는 영상을 촬영해 AI에게 시청시키고 어디에 무엇이 있는지와 같은 환경에 대한 정보를 학습시켰다. 사용자가 자연어로 AI에게 지시하면 AI가 영상 정보와 카메라로부터의 입력을 바탕으로 사용자를 목적지로 안내하는 데 성공했다고 한다.

데모 영상을 보면 AI를 탑재한 로봇에 뭔가를 그릴 수 있는 장소를 알려달라고 음성으로 입력하면 로봇이 잠시만 기다려달라고 응답한 뒤 잠시 뒤 로봇이 천천히 움직이기 시작해 무사히 사용자를 화이트보드 앞으로 안내하는 데 성공한다.

모델의 개요는 이런 식이다. 그 밖에 수행할 수 있는 작업 예로 물건을 들고 이건 어디에 반납하면 되냐는 질문이나 스마트폰을 보여주면서 어디서 충전할 수 있냐는 질문이 게재되어 있다.

연구팀은 대규모 현실 세계 환경에서 복잡한 추론과 멀티모달 사용자 지시를 수반하는 이전에는 실행 불가능했던 내비게이션 작업에서 엔드투엔드로 최대 90% 성공률을 달성했다며 결과가 큰 성공이었음을 강조했다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사