구글 제미나이로 브라우저에서 동영상 편집을…

구글이 4월 9~11일까지 미국 라스베이거스에서 개최한 연례 행사인 구글 클라우드 넥스트(Google Cloud Next) 기간 중 기업용 협업 도구인 구글 워크스페이스(Google Workspace)에 브라우저에서 동영상 편집이 가능한 구글 비드(Google Vids)를 발표했다. 멀티모달 AI인 제미나이(Gemini)를 비롯한 구글 AI 기술을 활용해 스톡 영상이나 이미지를 이용해 동영상을 제작하고 내레이션을 추가할 수 있는 웹 도구로 2024년 6월 출시 예정이다.

구글 비드를 이용하면 사내 교육 영상이나 서비스 홍보 영상을 제작할 수 있다. 원하는 동영상 개요를 텍스트로 입력하면 AI가 대략적인 개요를 제시해 준다. 이후 동영상 스타일을 선택하고 내레이션 대본을 입력하면 AI가 자동으로 음성을 생성해준다. 구글 워크스페이스 도구이므로 프로젝트 참여자와 동시에 편집할 수 있다. 동영상 소재는 스톡 미디어로 미리 준비되어 있으며 기존에 촬영/편집된 동영상을 구글 드라이브에서 불러오거나 웹캠으로 직접 촬영한 동영상을 사용할 수도 있다.

구글은 구글 비드를 2024년 6월 구글 워크스페이스랩(Google Workspace Labs)에서 먼저 공개하고 구글 워크스페이스를 통한 정식 출시 시기는 아직 밝히지 않았다. 또 구글은 구글 비드 외에도 구글미트 69개 언어 실시간 자막 번역 기능, AI 보안 기능, 새로운 스프레드시트/문서 기능 등 다양한 기능을 구글 워크스페이스에 도입할 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

한편 구글은 이 자리에서 고성능 AI 모델인 제미나이 1.5 프로(Gemini 1.5 Pro) 퍼블릭 프리뷰를 시작했다고 발표했다.

제미나이 1.5 프로는 지난 2월 15일에 발표된 모델로 최대 1시간짜리 동영상이나 70만 단어 분량 텍스트를 처리할 수 있다고 알려져 있다. 지금까지 제미나이 1.5 프로는 제한된 사용자만 이용할 수 있는 제한된 테스트 상태였지만 2024년 4월 9일부터 180개국 이상에서 퍼블릭 프리뷰가 시작되어 제미나이 API를 통해 누구나 사용할 수 있게 됐다. 퍼블릭 프리뷰에선 제미나이 1.5 프로 출시 당시 기능 외에도 음성 이해 기능과 파일 처리를 쉽게 해주는 새로운 파일 API가 추가됐으며 개발자가 모델 출력을 더 자세히 제어할 수 있는 시스템 명령어와 JSON 모드 같은 새로운 기능도 포함되어 있다.

또 퍼블릭 프리뷰와 함께 제미나이 API를 통해 차세대 텍스트 임베딩 모델인 겍코(gecko)도 출시된다고 한다. 겍코는 MTEB 벤치마크에서 동등한 차원을 가진 기존 모델보다 강력한 검색 성능을 실현하고 있다.

그 뿐 아니라 기업 고객을 위해 제미나이를 구글 클라우드 플랫폼 내 다양한 서비스에서 활용할 수 있게 됐고 이미지 생성 AI 이메진 2(Imagen 2)에서 프롬프트로부터 수 초 내 짧은 동영상을 생성할 수 있는 기능(Text-to-live image) 프리뷰도 시작했다고 한다. 하지만 이 기능은 아직 승인된 사용자만 이용할 수 있는 상태이며 일반 사용자 공개는 되지 않았다. 관련 내용은 이곳에서 확인할 수 있다.

구글은 또 데이터센터용 ARM 기반 칩인 엑시온(Axion)을 발표했다. 구글은 그동안 구글 클라우드에서 제공되는 머신 러닝 전용 프로세서인 TPU(Tensor Processing Unit)와 유튜브 영상 처리에 최적화된 VCU(Video Coding Unit)인 아르고스(Argos) 등을 개발해왔다. 이번에 발표한 엑시온도 직접 CPU를 유통시키는 게 아니라 구글 클라우드를 통해 고객에게 제공할 예정이다.

구글에 따르면 엑시온은 현재 클라우드에서 사용 가능한 가장 빠른 ARM 기반 인스턴스보다 최대 30% 성능이 향상됐고 동급 x86 기반 인스턴스와 견줘도 최대 50% 더 높은 성능과 최대 60% 뛰어난 에너지 효율을 보인다고 한다.

AI 시장 주도권을 놓고 IT 대기업이 치열한 경쟁을 펼치는 가운데 AI를 구동하는 하드웨어 개발 경쟁도 과열되고 있다. 2023년 11월 마이크로소프트와 아마존이 각각 ARM 기반 AI 전용 칩을 발표하며 엔비디아를 추격하고 있다.

Google has a long history of designing silicon chips and deploying them at scale. So, what's next?

Introducing Google Cloud Axion—our new custom ArmⓇ-based CPU designed for the data center #GoogleCloudNext. pic.twitter.com/7eiXaPOh4P
— Google Cloud (@googlecloud) April 9, 2024

한편 클라우드 분야에서 마이크로소프트, 아마존과 경쟁하는 구글은 그동안 유튜브, AI, 스마트폰용 칩을 제조해왔지만 ARM 기반 서버용 CPU 구축은 아직 하지 않았다. 구글은 엑시온을 통해 구글 어스 엔진(Google Earth Engine), 유튜브 광고 플랫폼 등 자사 서비스를 확장할 계획이며 2024년 후반부터 구글 클라우드 고객에게 엑시온을 제공할 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

한편 구글 클라우드는 제약 회사 바이엘(Bayer)과 협력해 방사선과 의사를 위한 AI 기반 헬스케어 애플리케이션 개발을 진행하고 있다. 주로 의료 데이터 90%를 차지하는 이미지 데이터 분석이 이뤄질 예정이며 환자 이미지를 이전 이미지와 비교하거나 이미지 내 이상을 감지하여 관련 의료 정보를 제공할 수 있게 된다.

앞으로 양사는 협력해 생성형 AI 기반 도구를 포함한 구글 클라우드 기술을 활용해 환자 이익에 기여할 혁신적이고 영향력 있는 솔루션 개발을 가속화할 계획이다. 바이엘에 따르면 방사선과 의사를 비롯한 임상 의사는 매일 엄청난 업무를 처리하고 있어 소진 증후군에 직면하고 있다고 한다. 이런 의료진 부담을 줄이기 위해 반복 작업이나 방대한 데이터세트에 대한 통찰을 AI에 의지하는 시도가 시작된다. 이 프로젝트에선 방사선과에 필수적인 의료 영상 데이터가 AI에 의해 분석될 예정이다.

#TeamBayer is dedicated to providing impactful #AI solutions to help radiologists reduce workload and provide accurate diagnoses. We’re excited to announce our partnership with @googlecloud to accelerate the power of AI and better serve patient diagnoses. https://t.co/p5tBMQrfbL
— Bayer AG (@Bayer) April 9, 2024

토머스 쿠리안 구글 클라우드 CEO는 이미지 이상을 AI가 감지해 환자 병력을 바탕으로 한 관련 정보를 제시하고 정기 검진 환자 이미지를 과거 이미지와 비교해 해당 정보를 요약할 수 있다고 밝혔다. 이런 플랫폼은 구글 클라우드 상에 구축 예정이며 다양한 도구(Vertex AI, BigQuery, Healthcare API, Chronicle)가 사용된다. 테스트 버전은 2024년 후반 EU와 미국에서 처음 사용 가능할 것으로 보인다. 그는 또 AI 도입 목적은 방사선과 의사에게 필요한 정보를 쉽게 제공하고 환자 기록 검색에 15∼20분을 소요하는 번거로움을 없애는 것이라고 덧붙였다.

또 바이엘 측은 방사선과가 의료에서 중요한 역할을 하며 환자 예후 개선에 도움이 될 통찰을 효율적이고 정확하게 밝혀내는 필요성이 어느 때보다 높아지고 있다며 자사는 수십 년간 방사선학 분야에서 연구와 혁신을 주도해 왔으며 구글 클라우드와의 협력을 통해 늘어나는 데이터를 가치 있는 통찰력으로 전환하고 방사선과 의사의 시간을 절약하면서 궁극적으로 환자 이익이 되는 솔루션을 구축할 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

구글은 또 오픈소스이면서 상용 이용 가능한 대규모 언어 모델 젬마(Gemma) 패밀리에 코드 완성, 생성, 명령어 따르기 기능을 강화한 코드젬마(CodeGemma)와 효율을 최적화한 리커런트젬마(GemmaRecurrentGemma)를 추가한다고 발표했다.

젬마는 구글이 개발한 AI 모델인 제미나이와 같은 기술을 사용해 만든 가벼우면서도 오픈된 AI 모델. 지난 2월 기본 격인 사전 학습된 모델과 대화 성능을 높인 조정 모델이 릴리스됐다.

이번에 발표한 건 코드 완성, 생성 작업, 명령어 따르기를 강화한 코드젬마와 효율을 최적화한 리커런트젬마 2가지다. 코드젬마 모델에는 20억 매개변수 버전 1과 70억 매개변수 버전 2가 있다. 20억 매개변수 버전은 로컬 컴퓨터에서 빠르게 코드를 완성하는 데 적합하며 70억 매개변수 버전은 코드 완성, 코드 생성 작업과 코드 관련 채팅‧명령어 따르기에 특화되어 있다.

리커런트젬마는 순환 신경망과 로컬 어텐션을 활용해 메모리 효율을 높인 모델로 젬마 2B 모델과 비슷한 벤치마크 점수를 달성하면서도 메모리 사용량을 줄이고 처리량을 크게 향상시켰다.

코드젬마와 리커런트젬마는 일반 젬마와 마찬가지로 오픈 모델로 공개되며 상용 이용도 가능하다. 한편 구글은 2가지 새 모델 발표와 함께 기존 젬마 모델 버전 1.1도 새로 공개했다. 관련 내용은 이곳에서 확인할 수 있다.

구글은 또 매직 이레이저(Magic Eraser) 등 AI 이미지 편집 도구를 아이폰을 포함한 모든 구글 포토 사용자에게 무료로 제공한다고 발표했다.

구글 포토에 탑재된 사진 속 불필요한 부분을 삭제하는 매직 이레이저와 촬영할 때 흐려짐이나 손떨림을 제거하는 포토 언블러(Photo Unblur) 등 AI 기반 편집 도구가 구글 픽셀 사용자와 구독 서비스인 구글 원 가입자 뿐 아니라 구글 포토 사용자 전체에게 무료로 제공되는 것.

지난 2021년 10월 구글 픽셀 6 시리즈 출시 때 등장했던 이미지 내 불필요한 피사체를 지울 수 있는 매직 이레이저는 원래 픽셀 사용자만을 위한 것이었지만 지난해 2월부터는 구글 원 가입자라면 픽셀 사용자가 아니어도 이용할 수 있게 됐다.

한편 프레임 밖 부분을 자동 생성하거나 사진 속 날씨 자체를 변경할 수 있는 AI 이미지 편집 기능인 매직 에디터(Magic Editor)가 구글 픽셀 8과 픽셀 8 프로용으로 등장한 바 있다. 이번 발표는 매직 에디터와 매직 이레이저 같은 편집 기능을 구글 포토 사용자 전체에게 개방한다는 것. 구글 원 가입은 물론 필요 없습니다. 다만 무제한 이미지 편집 및 저장은 계속해서 픽셀 사용자와 구글 원 사용자에게만 허용되며 무료 사용자에게는 월 10장 저장 제한이 있다.

그 밖에 구글은 4월 11일 미국과 일본을 연결하는 새로운 해저 인터넷 케이블 2개를 설치하고 태평양 지역 인터넷 인프라를 확장하기 위해 10억 달러를 투자하겠다고 밝혔다.

바이든 대통령과 기시다 일본 총리는 4월 10일 태평양 지역 해저 케이블 설치를 위해 자금을 지원하겠다는 공동 성명을 발표했다. 해저 케이블 설치를 맡게 된 구글은 10억 달러를 투자해 미국과 일본 사이에 새로운 해저 케이블 2개를 설치해 디지털 연결을 개선하겠다고 밝혔다.

구글에 따르면 먼저 설치될 프로아 해저 케이블은 일본, 괌 및 북마리아나 제도를 연결할 예정이며 NEC가 참여한다. 2번째 해저 케이블인 타이헤이는 하와이와 이바라키현을 연결할 계획이며 2023년 구글이 개통한 캐나다 밴쿠버-이바라키현을 연결하는 토파즈 케이블에 연결된다.

구글은 이번 신규 해저 케이블 설치를 통해 미국과 일본 및 여러 태평양 섬나라간 인터넷 연결을 개선할 수 있을 것이라고 밝히고 있다.