테크레시피

GPT-4 넘어서나…구글 멀티모달 AI 나왔다

구글 딥마인드가 12월 6일 멀티모달 AI인 제미니(Gemini)를 출시했다. 문자와 음성, 이미지를 동시 처리하는 게 가능하며 최상위 모델에선 GPT-4를 넘는 성능을 달성하고 있으며 동시에 공개된 영상에서도 자연스러운 대답을 하는 모습을 확인할 수 있다.

제미니는 울트라, 프로 나노 3가지 모델로 출시됐다. 제미니 울트라(Gemini Ultra)는 복잡한 작업을 지원하는 가장 큰 모델로 2024년 이후 이용 가능하게 될 예정이라고 한다. 제미니 프로(Gemini Pro)는 다양한 작업에 대응하기 위한 모델로 발표와 동시에 구글 채팅 AI인 바드(Bard)가 제미니 프로 기반으로 업그레이드되어 이미 사용할 수 있다. 제미니 나노(Gemini Nano)는 장치 내 작업을 위한 가장 효율적인 모델로 발표와 동시에 픽셀8 프로에서 사용할 수 있다.

최상위 모델인 제미니 울트라 성능을 벤치마크 MMLU에서 확인하면 GPT-4 뿐 아니라 인간 전문가를 뛰어넘는 점수를 낸다고 한다. 제미지는 멀티모달 AI로 문자 뿐 아니라 이미지, 영상, 음성을 동시에 처리할 수 있다. 멀티모달 관련 벤치마크에선 모든 지표에서 GPT-4V를 웃돌았다고 한다.

제미니는 이미 프로 모델이 바드에 탑재되어 있으며 픽셀8 프로에서 나노 모델을 사용할 수 있다. 개발자를 위한 제미니 API는 2023년 12월 13일부터 제공할 예정이며 API를 거쳐 제미니 프로에 액세스할 수 있다고 한다. 제미니 울트라는 2024년 이후 제공 예정이다.

구글은 제미니 발표로 바드 역사상 가장 큰 업데이트를 실시했다고 밝혔다. 이를 통해 전 세계 170개국 이상 영어권 바드 사용자가 텍스트 기반 프롬프트로 중간 모델인 제미니 프로를 사용할 수 있게 된 것.

바드를 위해 제미니 프로를 조정해 AI 문장 이해, 요약, 추론, 코딩, 계획 능력이 크게 높아졌다는 설명이다. 구글은 제미니에서 텍스트 외에도 처리할 수 있게 하고 유럽 등 다른 언어권 지역에도 제미니 제공을 확대할 예정이다.

더구나 2024년에는 제미니 울트라를 비롯해 고도 모델을 탑재한 바드 어드밴스드(Bard Advanced)가 나온다. 제미니 울트라는 텍스트 뿐 아니라 이미지, 음성, 영상에도 대응하며 일반적인 프로그래밍 언어로 고품질 코드도 이해하고 설명하거나 생성할 수 있다. 구글 측은 바드 어드밴스드가 이미 광범위한 안전성 체크를 완료해 곧 테스트 프로그램을 시작할 예정이라고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

앞서 밝혔듯 12월부터 픽셀8 프로에서 제미니 나노를 이용할 수 있게 된다. 쓸 수 있는 기능으로는 먼저 리코더 요약. 제미니 나노를 이용해 리코어 앱으로 녹음한 대화 문자 쓰기나 요약을 곧바로 실시할 수 있게 된다고 한다. 이 기능은 온디바이스에서 동작하며 네트워크 접속 없이도 사용할 수 있다. 다만 현재는 영어만 지원한다.

다음은 스마트 응답(Smart Reply). 키보드 앱인 G보드(Gboard)에서 AI가 메신저 앱으로 자동 회신 문장을 생성해주는 기능이다. 지금은 왓츠앱에서 사용할 수 있으며 2024년에는 더 많은 앱을 지원하게 된다고 한다. 이 역시 지금은 영어만 지원한다.

안드로이드 개발팀은 기기에 사전 설치된 AI에 액세스할 수 있는 안드로이드 AI코어(Android AICore)에 대해서도 밝혔다. 안드로이드 AI코어를 통해 제미니 나노 LoRA(Low Rank Adaptation)에 의한 파인튜닝이 가능해져 앱 독자 사용례를 맞춰 파인 튜닝된 대규모 언어 모델을 사용할 수 있다고 한다. 안드로이드 AI코어와 제미니 나노는 픽셀8 프로에서 배포되며 앞으로 몇 개월 내에 더 많은 지원 장치를 발표할 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

구글은 또 제미니 출시에 맞춰 제미니 기반 프로그래밍에 특화한 AI인 알파코드2(AlphaCode 2)도 개발하고 있다고 밝혔다.

제미니는 대규모 언어 모델인 PaLM2와 비교해 프로그래밍 능력이 향상됐다. 파이썬 코드 200개를 작성하는 테스트에서 PaLM2는 45% 정답률을 기록했지만 제미니는 75%로 정답률을 향상시켰다. 여기에 제미니에게 코드 체크와 수정을 지시하면 정답률은 무려 90%로 뛰어오른다.

사용자는 채팅 형태로 제미니에게 코딩을 지시할 수 있다. 구글이 공개한 데모에선 운행 중인 기차 현재 위치를 구글 지도에 표시하는 웹앱을 만드는 걸 도와달라는 지시 만으로 코드 초고가 작성되는 모습을 보여주기도 했다.

이런 제미니를 기반으로 프로그래밍에 특화한 AI로 발표한 게 알파코드2다. 지난 2022년 발표된 알파코드는 프로그래밍 상위 50%에 들어갈 만큼 능력을 갖추고 있었지만 알파코드2는 상위 15%에 들어갈 정도까지 능력을 높였다고 한다.

프로그래밍 과제에는 단순한 코딩 능력 뿐 아니라 수학이나 컴퓨터 사이언스 관련 지식, 문제를 이해하는 능력도 요구된다. 알파코드2는 이런 지식과 능력을 갖췄으며 정답률 0.2% 난문도 풀 수 있다.

알파코드2는 어디까지나 프로그래밍에 특화한 AI지만 구글은 이미 알파코드2 기능 일부를 제미니에 도입하는 작업을 진행하고 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

한편 구글은 이 날 기계학습 특화 프로세서인 TPU(Tensor Processing Unit) 신형 모델인 TPU v5p를 발표했다. 구글은 TPU v5p가 동시에 선보인 멀티모달 AI인 제미니 학습에도 사용된다고 밝혔다.

TPU v5p는 2023년 8월 30일 출시된 TPU v5e를 기반으로 구축한 것. 하지만 TPU v5e는 연산 성능보다 전력 효율, 비용 성능이 중시되어 실제 성능은 기존 모델인 TPU v4에 미치지 못했다.

한편 이번에 발표한 TPU v5p는 성능에 특화한 TPU로 TPU v4와 비교해 8,960개 칩으로 이뤄졌으며 칩당 메모리는 95GB, 메모리 대역도 초당 2,765GB로 대폭 강화했다. 구글은 이 성능을 통해 더 높은 AI 학습을 위한 연산 요구를 부응할 수 있다고 밝혔다.

TPU v5p는 또 int8 이용한 학습에도 대응하고 있으며 Bf16을 이용한 TPU v4 학습 속도를 1로 치면 Bf16을 이용한 TPU v5p 학습 속도는 TPU v4 1.9qo, int8을 사용하면 2.8배다. 한편 비용 효과는 TPU v5p가 뛰어나 GPT3-175B 학습을 실시하면 TPU v4가 1달러당 상대 성능을 1이라고 치면 TPU v5p는 2.1배, TPU v5e에선 2.3배로 높아진다. 구글 측은 TPU v5p를 사용한 대규모 언어 모델 학습에서 TPU v4 세대 성능보다 2배 빨라졌다고 밝히고 있다.

구글은 TPU v5p를 동시에 발표한 AI 멀티모달인 제미니 역시 TPU v5p에서 학습됐다고 보고했다. TPU v5p이 멀티모달 AI인 제미니 같은 첨단 AI 모델을 이용해 연구나 엔지니어링을 하는데 필수적 존재가 될 것이라는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사