보도에 따르면 구글이 사용자 웹브라우저에서 조사 결과 수집, 제품 구매, 항공권 예약 등 작업을 수행하는 AI 에이전트 자비스(Jarvis)를 개발 중이라고 한다.
구글은 지난 5월 개최한 연례 컨퍼런스 구글 I/O 2024에서 멀티모달 AI인 제미나이 나노(Gemini Nano)를 데스크톱 버전 크롬에 직접 통합하겠다고 발표했으며 7월에는 크롬 127 베타 버전에 제미나이 나노가 통합됐다. 또 구글은 일상생활에 도움이 되는 범용 AI 에이전트에 대해서도 언급하며 AI 에이전트 일부 기능이 제미나이에 탑재될 가능성이 있다고 밝혔다.
새롭게 구글이 프로젝트 자비스(Project Jarvis)라는 코드명이 붙은 프로젝트를 진행하고 있다고 보도했다. 프로젝트 관계자 3명에 따르면 자비스는 구글이 개발한 멀티모달 AI 제미나이 향후 버전인 제미나이 2.0을 탑재하고 있으며 웹브라우저에서 정보 수집, 제품 구매, 항공권 구매 같은 작업을 수행한다고 한다. 자비스는 크롬 전용으로 조정되어 있으며 지속적으로 화면 스크린샷을 촬영해 이를 해석하고 사용자 지시에 따라 버튼을 클릭하거나 텍스트를 입력한다. 다만 지금은 응답이 다소 느리다고 하며 이유는 모델이 각 작업을 실행하기 전 몇 초간 생각할 필요가 있기 때문이라고 보도됐다. 아마도 자비스는 아직 온디바이스에서 작동하지 않고 클라우드가 필요할 것이라는 지적이다.
이르면 오는 12월 자비스 프리뷰 버전이 공개될 예정이라고 보도됐으며 이는 제미나이 2.0이 12월 출시될 예정이라는 소문과도 일치한다. 보도에 따르면 구글은 처음에는 테스트를 위해 소수 사용자에게 자비스를 제공하기를 원하며 도입됐을 때 널리 이용 가능하게 될 것이라고 생각하지 않는다. 또 12월 출시 일정은 확정된 게 아니며 보도에서 지적한 대로 구글은 그때까지 자비스와 그 기능을 공개하지 않기로 선택할 수도 있다고 언급했다.
브라우저와 연계되는 AI 모델을 개발하는 건 구글만이 아니다. 마이크로소프트는 브라우저상 텍스트나 이미지에 맞춘 대화가 가능한 AI 기능인 코파일럿 비전(Copilot Vision)을 개발하고 있으며 AI 기업 앤트로픽은 AI 모델 클로드가 PC를 조작하는 기능인 컴퓨터 유스(computer use) 공개 베타 테스트를 시작했다.
한편 마이크로소프트는 사용자 PC상 조작을 정기적으로 스크린샷해 데이터베이스에 저장하고 나중에 조작 이력을 확인할 수 있게 하는 기능인 리콜(Recall)을 지난 5월에 발표했다. 리콜에는 프라이버시 관련 우려가 제기되어 공개가 연기됐지만 10월부터 윈도 인사이더를 통해 프리뷰 버전이 제공되고 있다. 관련 내용은 이곳에서 확인할 수 있다.