AI 개발 및 운영을 쉽게 할 수 있게 해주는 구글 플랫폼인 버텍스AI(Vertex AI)에서, 동영상 생성 모델 베오(Veo)와 이미지 생성 모델 이미진3(Imagen 3) 비공개 프리뷰 버전 제공이 시작됐다.
베오는 개발사인 구글 딥마인드가 지금까지 가장 고성능이라고 표현하는 동영상 생성 모델로 지난 5월 개최된 구글 I/O 2024에서 공개됐다. 특징은 1분 이상 1080p 동영상을 쉽게 생성할 수 있다는 점. 베오는 유튜브 쇼츠용 배경 영상 제작 기능인 드림 스크린(Dream Screen)에도 도입됐다.
한편 이미진3는 텍스트에서 이미지를 생성하는 최고 품질의 변환 모델로 지난 8월 출시됐다. 실제로 베오 온 버텍스 AI(Veo on Vertex AI)를 사용해 어떤 영상을 만들 수 있는지 온라인 예약 사이트 아고다가 제작한 동영상 광고가 공개됐다. 버텍스 AI 상에서 베오, 제미나이, 이미진 등 AI 모델을 활용함으로써 제작 프로세스가 합리화되고 소요 시간을 크게 줄일 수 있다고 한다.
참고로 베오 온 버텍스 AI는 이미 비공개 프리뷰 버전 제공이 시작됐으며 이미진 3는 다음 주부터 접근 가능해진다. 관련 내용은 이곳에서 확인할 수 있다.
한편 구글 딥마인드는 12월 4일 단일 입력 이미지로부터 플레이 가능한 3D 환경을 생성할 수 있는 기반 세계 모델인 지니2(Genie 2)를 발표했다. 지니2로 생성된 세계는 인간이나 AI 에이전트가 키보드와 마우스를 사용해 탐색할 수 있다.
지니 2는 대규모 동영상 데이터셋으로 훈련된 자기 회귀 잠재 확산 모델로 물리 시뮬레이션, 캐릭터 애니메이션, 객체 상호작용 등 다양한 창발적 능력을 보여준다. 이미지 생성 AI 이미진 3로 생성한 이미지를 입력으로 사용해 플레이 가능한 3D 환경을 만들 수 있으며 최대 1분 동안 움직일 수 있다.
예를 들어 이미진 3로 3인칭 오픈월드 탐험 게임 스크린샷. 플레이어는 숲을 탐험하는 모험가다. 왼쪽에 빨간 문이 있는 집, 오른쪽에 파란 문이 있는 집. 카메라는 플레이어의 바로 뒤에 배치되어 있다. #사실적 #몰입감 프롬프트로 생성한 이미지를 사용할 수 있다.
이 이미지로부터 지니 2가 생성한 3D 세계를 AI 에이전트 SIMA에 파란 문을 열어달라고 지시해 움직일 수 있다. 지니 2는 키보드 키 입력에 따른 액션에 응답하고 캐릭터를 식별해 올바르게 이동시킨다. 또 시야에서 벗어난 부분을 기억해 다시 시야에 들어왔을 때 정확하게 렌더링할 수 있다.
지니 2는 1인칭 시점과 3인칭 시점 뿐 아니라 드라이빙 게임처럼 차량을 추적하는 시점이나 쿼터 뷰와 같이 비스듬히 내려다보는 시점도 생성할 수 있다.
또 지니 2는 중력, 물, 연기, 반사, 조명 등 물리적 효과도 표현할 수 있으며 복잡한 캐릭터 애니메이션, 다른 NPC와의 상호작용, 사실적인 조명 및 반사 효과도 구현할 수 있다.
더불어 지니 2는 이미진 3로 생성한 이미지 뿐 아니라 실제 사진이나 컨셉 아트로부터도 환경을 생성할 수 있는 기능을 갖고 있다. 구글 딥마인드는 지니 2를 통해 연구자는 AI 에이전트 훈련을 위한 다양한 환경을 신속하게 만들 수 있고 아티스트와 디자이너는 자신의 아이디어를 빠르게 프로토타입화할 수 있다고 말했다.
지니 2 연구 개발은 아직 초기 단계에 있으며 구글 딥마인드는 이 기술이 안전하게 AI 에이전트를 훈련하고 범용 AI를 향한 연구를 진전시키는 중요한 단계가 될 것으로 생각하고 있다. 지니 2 연구팀은 앞으로도 생성 능력의 일반성과 일관성 향상에 노력할 계획이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.
구글 딥마인드는 그 뿐 아니라 기상 예측 AI 젠캐스트(GenCast)를 발표했다. 앙상블 예보를 사용해 최대 15일 선행 날씨를 예측할 수 있으며 많은 국가와 지역에서 도입하고 있는 유럽 중기예보센터(EMCWF) 예측 시스템보다 높은 정확도를 보였다고 보고됐다.
날씨는 인간 의사 결정과 안전, 생활 방식을 형성하며 최근 기후 변화에 따른 극단적인 기상 현상이 발생하는 가운데 정확하고 신뢰할 수 있는 날씨 예보가 중요해지고 있다. 하지만 날씨를 완전히 예측하는 것은 불가능하며 며칠 앞 날씨 예보는 불확실한 게 된다.
그래서 많은 과학자와 기상 기관은 앙상블 예보라고 불리는 수치 예보 기법을 이용해 해당 기상 현상이 발생할 수 있는 다양한 기상 시나리오를 예측한다. 따라서 앙상블 예보를 통해 향후 며칠에서 몇 주 동안 발생할 수 있는 기상 조건과 각 시나리오 가능성에 대한 전체적인 그림을 파악할 수 있다고 한다.
구글 딥마인드가 개발한 그래프캐스트(GraphCast)는 유럽 중기 기상 예보 센터(ECMWF)가 공개한 기상 관측 데이터 세트 ERA5에 포함된 지난 40년간의 기상 관측 데이터를 학습했으며 미래 기상 상황을 신속하고 고정밀로 예측할 수 있다.
2019년 기상 데이터로 테스트한 결과 젠캐스트는 EMCWF 앙상블 예보 시스템보다 높은 정확도로 날씨를 예측할 수 있었다. 또 구글 클라우드 TPU v5에서 15일간 예보 작성에 소요된 시간은 단 8분이었으며 앙상블 내 모든 예보를 동시에 작성할 수도 있다. 반면 기존 물리학 기반 앙상블 예보는 수만 개 프로세서를 탑재한 슈퍼컴퓨터를 사용해 수 시간 동안 작동시켜 생성됐다.
구글 딥마인드는 곧 젠캐스트와 이전 모델의 실시간 및 과거 예보를 출시할 예정이며 이를 통해 누구나 이런 결과를 자체 AI 모델 및 연구 워크플로우에 통합할 수 있게 될 것이라며 자사는 학술 연구자, 기상학자, 데이터 과학자, 재생 가능 에너지 기업, 식량 안전 보장 및 재해 대응에 중점을 둔 조직 등 더 광범위한 기상 커뮤니티와 협력하기를 간절히 바란다고 말했다.
참고로 구글 딥마인드는 젠캐스트와 그래프캐스트 소스 코드를 깃허브에 공개하고 있다. 관련 내용은 이곳에서 확인할 수 있다.
한편 스포티파이는 매년 12월에 해당 연도에 자사 서비스에서 자주 들은 곡과 아티스트를 정리한 스포티파이 정리(Spotify Wrapped) 서비스를 자동으로 제공하고 있다. 이 스포티파이 정리에 구글 노트북LM(NotebookLM)을 결합해 1년간 사용자 음악 이력을 AI 호스트 2명이 대화 형식으로 되돌아보는 팟캐스트 프로그램을 자동 생성하는 새로운 기능인 스포티파이 정리 AI 팟캐스트를 추가했다고 구글과 스포티파이가 발표했다.
구글 노트북LM은 사용자가 직접 다양한 자료를 읽어 들여 개인 맞춤형 AI 어시스턴트를 만들 수 있는 서비스로 저장된 정보를 바탕으로 AI 호스트인 남녀 2명이 가끔 농담도 곁들이며 내용에 대해 이야기하는 음성을 생성하는 오디오 오버뷰(Audio Overviews)라는 기능도 탑재하고 있다.
Reply to this with the best quotes from your @spotify Wrapped AI podcasts! For one of our team members, it has to be entering her “pink pilates princess catwalk pop era” which fits her perfectly both in vibes and verbosity.
— notebooklm (@notebooklm) December 4, 2024
Here is a clip from her #SpotifyWrapped below: pic.twitter.com/H8dj2nffRf
스포티파이 정리 AI 팟캐스트는 이런 오디오 오버뷰를 활용해 스포티파이 정리를 팟캐스트로 만든 것으로 AI 호스트 2명이 대화를 나누며 사용자의 1년간 음악 이력을 되짚어준다. 스포티파이 정리 AI 팟캐스트로 생성된 팟캐스트는 앱에서 시청할 수 있으며 다른 사람과 공유할 수도 있다고 한다.
스포티파이는 사용자는 오디오 오버뷰를 개인화해 생성 AI에 의한 역동적인 호스트 2명이 자주 들은 곡과 아티스트, 장르에 대해 나누는 대화를 즐길 수 있다며 스포티파이에서의 독특한 음악 청취 방식 발견부터 좋아하는 트랙 뒤의 영감 탐구까지 스포티파이 정리 AI 팟캐스트는 그 해 사운드트랙이 된 음악에 더 가까이 다가갈 수 있다고 밝혔다. 스포티파이 정리 AI 팟캐스트는 미국, 영국, 호주, 뉴질랜드, 캐나다, 아일랜드, 스웨덴 내 무료 및 프리미엄 사용자를 대상으로 한정 기간 동안 제공된다. 관련 내용은 이곳에서 확인할 수 있다.