“AI 크롬 자동 조작 기능도…” 구글, 제미나이 2.0 발표했다

구글이 제미나이 차세대 모델 패밀리인 제미나이 2.0(Gemini 2.0)을 발표하면서 동시에 모든 제미나이 사용자에게 응답 속도에 중점을 둔 모델인 제미나이 2.0 플래시(Gemini 2.0 Flash) 실험 버전에 대한 접근을 허용했다. 향후 다른 구글 제품에도 제미나이 2.0을 도입할 예정이다.

구글은 2023년 12월 문자·음성·이미지를 동시에 처리할 수 있는 멀티모달 AI 제미나이를 발표했다. 이후 지난 2월 제미나이 차세대 모델인 제미나이 1.5도 발표했다. 구글은 또 제미나이 고속·경량 모델인 제미나이 플래시와 제미나이 1.5 플래시-8B 등 모델도 출시했다.

그런 제미나이 차세대 모델인 제미나이 2.0이 12월 11일 발표됐다. 발표와 동시에 제미나이 2.0 모델 패밀리 첫 번째 모델로 제미나이 2.0 플래시 실험 모델을 모든 제미나이 사용자에게 개방한다고 한다. 플래시 모델은 모델 패밀리 중에서도 응답 속도에 중점을 둔 모델로 제미나이 1.5 모델 패밀리에서는 제미나이 1.5 플래시가 가장 개발자에게 선호됐다.

Welcome to the world, Gemini 2.0 our most capable AI model yet.

We're first releasing an experimental version of 2.0 Flash It has better performance, new multimodal output, @Google tool use – and paves the way for new agentic experiences. https://t.co/ywY2oZv76p pic.twitter.com/1Wgcr3m2Ip
— Google DeepMind (@GoogleDeepMind) December 11, 2024

제미나이 2.0 플래시는 고속 응답 속도를 유지하면서 벤치마크에서 이전 세대 대형 모델 제미나이 1.5 프로를 능가하는 결과를 보여주고 있다. 또 제미나이 2.0 플래시는 새롭게 이미지와 동영상, 음성 등 멀티모달 입력을 지원할 뿐 아니라 문자·이미지·다국어 음성 등 멀티모달 출력도 지원한다고 한다. 구글 검색, 코드 실행, 서드파티 사용자 정의 함수 등 도구를 호출하는 기능도 마련됐다.

Thrilled to kick off the Gemini 2.0 era with Gemini 2.0 Flash, an update to our workhorse model that outperforms even 1.5 Pro at twice the speed. It has really great multilingual skills, and can natively call tools, like Google Search. It’s the first release in the Gemini 2.0… pic.twitter.com/pjndTAf1PY
— Demis Hassabis (@demishassabis) December 11, 2024

제미나이 2.0 플래시 발표와 동시에 제미나이 웹 버전에서 모델을 제미나이 2.0 플래시 실험 버전으로 전환할 수 있게 됐다. 모바일 앱 버전 모델 전환은 향후 대응 예정이라고 한다. 구글은 사용자가 쉽게 AI를 활용할 수 있도록 하는 AI 에이전트 개발에도 힘을 쏟고 있다.

딥마인드 창업자인 데미스 하사비스는 제미나이 2.0 플래시는 이제 막 시작에 불과하다며 향후 더 많은 모델이 등장할 것임을 강조했으며 2025년은 AI 에이전트의 해가 될 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

한편 구글은 12월 11일 브라우저 상 정보를 이해하고 자동 조작할 수 있는 AI인 프로젝트 마리너(Project Mariner)를 발표했다. 프로젝트 마리너를 사용하면 스프레드시트에 정리한 기업명을 바탕으로 각 기업 이메일 주소를 검색해 정리한다는 것과 같은 복잡한 작업을 자동으로 실행할 수 있다.

프로젝트 마리너는 사용자 지시에 따라 복잡한 작업을 실행할 수 있는 AI 어시스턴트다. 사용자는 이 스프레드의 ○○라는 정보를 바탕으로 ○○를 실행해 같은 방식으로 자연어로 지시하면 된다. 사용자가 지시하면 지시 내용과 크롬 스크린샷이 클라우드 상 제미나이에 전송되고 제미나이 분석 결과에 기반해 커서 조작, 검색, 양식 입력 등이 자동으로 실행된다.

또 프로젝트 마리너는 12월 11일 발표된 제미나이 2.0을 탑재하고 있으며 제미나이 2.0이 갖춘 고도의 자연어 이해와 추론 기능을 활용해 입력된 요청과 음성에 의한 요청 모두를 해석한다고 한다. 구글 엔지니어는 한 예로 사용자가 근처 일자리를 찾아달라고 묻기만 하면 프로젝트 마리너는 해당 요청을 이해하고 관련 구인 사이트로 이동해 사용자 위치와 선호도에 기반해 검색을 맞춤 설정한다고 말했다.

구글에 따르면 프로젝트 마리너는 실제 웹 작업에서 AI 에이전트 성능을 테스트하는 웹보이저(WebVoyager)에서 83.5%라는 높은 점수를 기록했다. 이 결과에 대해 구글은 AI에 의한 작업 수행이 반드시 정확하고 빠르다고 할 수는 없지만 브라우저 내에서 AI 에이전트가 작업을 수행할 수 있게 됐다는 기술적 가능성을 보여준다고 말했다.

프로젝트 마리너는 보안에 중점을 두고 있으며 사용자가 프로젝트 마리너가 무엇을 하고 있는지 파악할 수 있도록 활성화된 탭 내에서만 작동하도록 제한되어 있고 상품 구매 등 특정 고도의 기밀성이 높은 행동을 실행할 때는 사용자에게 최종 확인을 요청한다. 또 신용카드 번호나 청구 정보 입력, 웹사이트 쿠키 수락, 이용 약관 동의 같은 사용자 권리와 재산에 직접적인 영향을 줄 수 있는 행동은 제한된다. 그 외에도 제3자에 의한 프롬프트 주입 공격이 있더라도 프로젝트 마리너는 사용자 지시를 우선하도록 학습되어 있어 외부 소스로부터의 악의적인 지시를 따르기 어렵게 되어 있다. 이를 통해 이메일이나 문서, 웹사이트에 악의적인 지시가 숨겨져 있더라도 사용자는 사기나 피싱 피해를 입을 가능성이 낮아진다. 구글에 따르면 현재 프로젝트 마리너는 신뢰할 수 있는 테스터에 의해 테스트되고 있으며 테스터가 되기 위한 대기 목록도 공개되어 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

또 구글은 제미나이 2.0을 사용해 게임 내에서 뭘 해야 할지를 AI에게 실시간으로 물어볼 수 있는 기능을 개발 중임을 밝혔다.

구글은 사용자가 AI를 쉽게 활용할 수 있는 AI 에이전트 개발에도 힘을 쏟고 있다. 구글은 슈퍼셀을 비롯한 주요 게임 개발사와 협력해 클래시 오브 클랜, 헤이 데이, 스쿼드 버스터즈 등 게임에서 AI가 규칙과 과제를 해석하는 능력을 테스트하고 있다.

구글 딥마인드 데미스 하사비스 CEO와 코레이 카부크추오글루 CTO는 제미나이 2.0을 사용한 이 AI 에이전트는 화면상 액션만으로 게임에 대해 추론하고 다음에 뭘 해야 할지 제안할 수 있다며 AI 에이전트는 가상 게임 동료로 기능할 뿐 아니라 구글 검색을 통해 웹상 풍부한 게임 지식과 연결될 수 있다고 강조했다.

예를 들어 주간 퀘스트를 클리어하고 싶은데 뭘 해야 할지를 묻는 사용자에게 제미나이 2.0은 보석 300개를 모으고 보스 몬트서 10마리를 물리치는 게 필요한 것 같다며 이미 보석 300개를 모으는 미션은 진행 중인 것 같다고 대답했다.

구글은 가상 세계에서의 에이전트 기능을 탐구할 뿐 아니라 제미나이 2.0 공간 추론 기능을 로봇 공학에 적용하여 현실 세계에서 유용한 에이전트를 테스트하고 있다며 완전한 구현까지는 아직 멀었지만 물리적 환경에서 사용자를 지원할 수 있는 AI 에이전트의 향후 가능성에 대해 기대하고 있다고 말했다.

구글은 또 코드 결함을 자동으로 수정할 수 있는 실험적 AI 기반 코딩 보조 도구인 줄스(Jules)를 발표했다.

구글이 같은 날 발표한 제미나이 2.0 기반으로 구축된 줄스는 깃허브 워크플로 시스템과 직접 통합되며 복잡한 코드베이스를 분석하고 여러 파일에 걸친 수정을 수행할 수 있는 코드 에이전트다. 이는 지속적인 인간 감시 없이도 세부적인 풀 리퀘스트(Pull Request)를 준비할 수 있다. 보도에선 줄스를 두고 개발자가 잠든 동안 소프트웨어 버그를 자동으로 수정하고 코드 변경을 준비할 수 있는 AI 코딩 보조 도구라고 표현했다.

지난 10월 구글 CEO인 순다르 피차이(Sundar Pichai)는 회사 새 코드 중 25% 이상이 AI에 의해 생성된다고 밝힌 바 있다. 이는 구글 개발 프로세스에 이미 AI가 깊이 통합되어 있다는 걸 보여주고 있다.