테크레시피

구글 I/O 2024…어떤 제품 발표했나

구글이 5월 14일 구글 I/O(Google I/O)) 행사를 열고 주요 제품과 서비스를 발표했다. 이 날 발표한 내용을 살펴보면 영상과 음성을 이해하고 실시간으로 질문에 답변해주는 AI 에이전트인 프로젝트 아스트라(Project Astra), 텍스트 입력에 따라 고해상도 동영상을 생성하는 AI 모델인 베오(Veo), 텍스트 프롬프트로 루프/멜로디 생성 및 장르 변경 가능한 AI 음악 제작 도구인 뮤직 AI 샌드박스(Music AI Sandbox), 제미나이를 개인화할 수 있는 새로운 기능인 젬스(Gems), 비주얼 언어 모델과 오픈소스 대규모 언어 모델인 팔리젬마, 젬마 2, 교육 연구를 기반으로 개발된 AI 모델인 런LM(LearnLM) 등 생성형 AI 관련 내용이 많다. 그 뿐 아니라 번역, 코딩, 추론 등의 기능을 강화한 제미나이 1.5 프로 업데이트나 생성 이미지 외에 텍스트, 동영상으로 확대, 전자 워터마크를 넣어 출처를 식별할 수 있는 신스ID(SynthID) 등에 대한 내용도 공개했다. 그 밖에 6세대 TPU인 트릴리움(Trillium), 안드로이드에서도 사용할 수 있게 된 얼굴 표정과 제스처로 커서를 제어할 수 있는 도구 프로젝트 게임페이스 등도 공개했다.

구글은 먼저 영상과 음성을 이해하고 실시간으로 질문에 답변해주는 AI 에이전트인 프로젝트 아스트라(Project Astra)를 발표했다. 실제로 사용자가 스마트폰과 스마트글라스 카메라로 촬영한 물건에 대해 아스트라에 질문하는 데모 동영상도 공개됐다.

하루 전 날인 5월 13일 오픈AI가 음성과 시각 정보를 고속 처리하고 실시간 응답하는 새로운 AI 모델인 GPT-4o를 발표하며 큰 화제가 된 바 있다. 다음 날 열린 구글 I/O에서 구글은 일상생활에 도움이 되는 범용 AI 에이전트 개발 일환으로 AI 에이전트 아스트라를 소개한 것.

구글 AI 부문인 구글 딥마인드(Google DeepMind) 데미스 하사비스는 인류에게 이익이 되는 AI를 책임감 있게 구축한다는 미션 일환으로, 일상에 도움이 되는 범용 AI 에이전트를 개발하고자 했다며 영상과 대화가 가능한 고도화된 응답 에이전트(Project Astra(advanced seeing and talking responsive agent)를 통한 AI 어시스턴트 미래 발전상을 공유하겠다고 밝혔다.

아스트라는 영상 프레임을 연속 인코딩하고 영상과 음성 입력을 결합해 타임라인 이벤트로 통합하며 캐시된 정보를 효율적으로 불러와 고속 정보 처리를 가능케 한다고 한다. 또 첨단 음성 모델을 사용해 음성 품질을 높이고 억양 폭도 넓혔다고 한다.

하사비스는 이런 기술 덕분에 스마트폰이나 스마트글라스를 통해 전문 AI 어시스턴트를 곁에 두는 미래를 그리기 쉬울 것이라며 이들 기술 일부는 올해 안에 제미나이 앱이나 웹 경험 등 구글 서비스에 탑재할 예정이라고 덧붙였다.

구글은 텍스트 입력에 따라 고해상도 동영상을 출력하는 생성형 AI인 베오(Veo)도 발표했다. 발표에 따르면 베오는 자연어와 시각적 의미를 깊이 이해해 타임랩스나 공중 촬영 같은 프롬프트를 입력하면 의도한 대로 영상을 만들어 준다고 한다. 영상 해상도는 1080p이며 1분 이상 영상도 출력할 수 있다.

구글이 공개한 베오가 생성한 영상은 전혀 수작업을 하지 않은 것이라고 한다. 생성형 AI에 관심이 있어 구글에 연락했다는 배우이자 영화 프로듀서인 도널드 글로버가 실제로 베오를 사용해 작품 제작에 착수한 모습도 공개됐다.

구글은 베오 실현을 위해 GQN, DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere 등 과거 생성형 동영상 AI 모델 연구 성과를 활용했다고 한다.

이어 베오를 활용한 동영상 생성 도구인 비디오FX(VideoFX)와 이미지 생성‧편집 도구인 이미지FX(ImageFX), 음악 제작 도구인 뮤직FX(MusicFX)가 공개됐다. 구글 정책에 따라 이 도구로 제작된 콘텐츠에는 신스ID(SynthID)를 통한 전자 워터마크가 추가된다고 한다.

구글은 간단한 프롬프트로 루프 음원을 만들거나 멜로디 장르를 바꾸거나 복잡한 텍스트에서 멜로디를 제안할 수 있는 AI 도구인 뮤직 AI 샌드박스(Music AI Sandbox)도 발표했다.

구글 딥마인드는 유튜브와 협력해 음악 제작 방식을 혁신할 AI 도구로 뮤직 AI 샌드박스를 구축해왔다며 디자인과 테스트를 위해 뮤지션, 작곡가, 음악 프로듀서와 긴밀히 협력해왔다고 밝혔다.

뮤직 AI 샌드박스는 음악 생성에 특화된 AI 모델 리리아(Lyria)를 포함하며 구글 딥마인드 생성형 음악 기술 개발에도 활용되고 있다고 한다. 뮤직 AI 샌드박스 정식 출시일이나 가격 등 세부 사항은 아직 발표되지 않았다.

구글은 자사 AI 모델인 제미나이와 안드로이드를 더욱 깊이 통합해 동영상 검색, PDF 요약, 은행원을 가장해 개인 정보를 요구하는 사기 행위에 대한 경고 등 기능이 스마트폰에 탑재될 것이라고 발표했다.

먼저 사용 중인 앱 위에 제미나이를 표시할 수 있게 되면서 사용자는 AI가 생성한 이미지를 메시지나 G메일에 직접 드래그앤드롭할 수 있고 해당 동영상에 대해 묻기(Ask this video)를 탭해 유튜브 영상에서 특정 정보를 찾을 수 있다. 또한 유료 제미나이 어드밴스드 서비스를 이용하는 사용자에게는 해당 PDF에 대해 묻기(Ask this PDF) 옵션이 추가되어 모든 페이지를 훑어보지 않고도 내용을 파악할 수 있게 된다. 이 업데이트는 앞으로 몇 개월에 걸쳐 안드로이드 기기 수억 대에 제공 예정이다.

또 안드로이드에 내장된 AI인 제미나이 나노가 완전한 멀티모달에 대응해 AI가 텍스트 입력뿐 아니라 풍경, 소리, 대화 등 안드로이드 사용 환경 컨텍스트를 더 다양하게 이해할 수 있게 된다. 이 업데이트는 2024년 하반기 픽셀 시리즈 단말에 배포된다. 제미나이 나노가 멀티모달 기능을 갖추게 되면서 화면 정보를 읽어주는 사용자 보조 기능인 토크백(TalkBack)도 강화되어 시각 장애인 사용자가 더 풍부한 정보를 받을 수 있게 된다.

사기로 인한 전 세계 피해는 해마다 증가하고 있으며 2023년 발표된 43개국 피해 통계 보고서에 따르면 사기나 개인 정보 도용 등으로 인한 연간 피해 규모가 1조 2,600억 달러에 이를 것으로 추산된다. 구글은 제미나이 나노를 통해 전화 사기에 자주 사용되는 대화 패턴을 분석해 실제 은행원이 개인 정보나 암호, 긴급 자금 이체, 기프트카드 결제 등을 요구하면 경고 알림을 표시하는 기능을 테스트하고 있다. 이 기능은 스마트폰 내에서 완결해 통화 프라이버시는 유지된다고 한다. 이 기능에 대한 자세한 정보는 2024년 하반기 공개 예정이다.

그 뿐 아니라 구글 포토에는 AI 제미나이를 통합해 사용자가 질문만 던지면 과거에 촬영한 사진이나 동영상을 쉽게 검색할 수 있게 됐다.

애스크 포토(Ask Photos)라는 콘텐츠 검색 기능을 사용하면 사용자는 자신이 방문했던 국립공원 최고 장면을 보여줘 같은 질문만 하면 조건에 맞는 콘텐츠를 바로 볼 수 있다.

이를 통해 수많은 촬영 사진 중에서 특정 사진을 찾는 게 더 쉬워진다. 제미나이는 또 사진 속 물체를 인식해 검색을 도와줄 수 있다. 예를 들어 생일 파티에는 어떤 테마였냐고 물으면 사진 속 장식물 등을 설명해 준다. 또 작년에 캠핑했던 장소나 쿠폰 유효기간이 언제까지냐는 등 질문에도 답변해 줄 수 있다. SNS에 공유할 때 게시글 문안도 제안해주는 기능도 갖추고 있다.

구글 측은 애스크 포토는 실험적인 기능이며 모든 걸 정확히 이해하지는 못하지만 안전하고 적절한 대응을 위해 여러 안전장치와 AI 모델을 사용했다며 사용자가 답변을 수정하거나 추가 정보를 제공하면 세부사항을 기억할 수 있다고 설명하고 있다. 이 기능은 곧 출시 예정이다.

구글은 앞으로 제미나이와 안드로이드 통합을 더 진전시켜 스마트폰 사용자 경험 모든 측면에 AI를 접목할 계획이라고 밝혔다.

구글은 또 이 자리에서 지난 2월 발표된 고성능 AI 모델인 제미나이 1.5 프로(Gemini 1.5 Pro) 업데이트를 발표했다.

지난 2월 15일 발표된 제미나이 1.5 프로는 최대 1시간 동영상이나 70만 단어 텍스트를 다룰 수 있다고 알려졌다. 초기에는 제한된 테스트로 일부 사용자만 사용할 수 있었지만 4월 9일부터 제미나이 API를 통해 누구나 퍼블릭 프리뷰를 이용할 수 있게 됐다.

이번 행사에선 제미나이 1.5 프로에서 번역, 코딩, 추론 등 주요 사용 사례에 대한 품질 개선이 이뤄졌다고 보고됐다. 또 초기 제미나이 1.5 프로 컨텍스트창은 100만 토큰이었지만 이번 발표에서는 프라이빗 프리뷰에서 200만 토큰으로 2배 증가했다는 게 밝혀졌다.

200만 토큰 컨텍스트창을 사용하려면 구글 AI 스튜디오(Google AI Studio) 또는 버텍스 AI(Vertex AI) 대기열에 참여해야 한다.

구글은 또 제미나이 1.5 프로를 AI 채팅 제미나이 어드밴스드(Gemini Advanced)에 도입할 것이라고 발표했다. 구글에 따르면 제미나이 1.5 프로를 도입하면 1,500페이지 문서를 이해하거나 100통에 이르는 이메일을 요약할 수 있다. 또 구글은 가까운 시일 내에 1시간 분량 영상 콘텐츠나 3만 줄 이상 코드베이스도 다룰 수 있게 될 것이라고 밝혔다.

구글은 그 뿐 아니라 컨텍스트창을 활용하기 위해 구글 드라이브를 통해 직접 제미나이 어드밴스드에 파일을 올리는 기능을 추가했다. 이를 통해 복잡한 문서에 대한 답변을 빠르게 생성할 수 있게 됐고 올린 스프레드시트 데이터를 분석하거나 그래프를 구축할 수 있게 됐다. 구글은 업로드된 데이터는 AI 모델 트레이닝에 사용되지 않는다고 밝혔다.

더불어 제미나이 어드밴스드 가입자를 위한 음성 대화 기능인 제미나이 라이브(Gemini Live)가 몇 개월 내에 출시될 예정이다. 구글은 제미나이 라이브에 대해 여러 자연스러운 음성 중에서 선호하는 음성을 선택할 수 있으며 다른 대화와 마찬가지로 자신의 속도에 맞춰 말할 수 있고 응답 중간에 중단해 질문을 명확히 할 수 있다고 설명했다. 구글은 2024년 후반 제미나이 라이브에서 카메라를 사용할 수 있게 할 예정이라고 밝혔는데 이를 통해 카메라로 촬영한 것에 대해서도 대화할 수 있게 된다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

자연스러운 대화가 가능한 높은 성능을 발휘했던 제미니이지만 특정 요구에 맞춰 스프레드시트를 분석하고 그래프화하거나 AI를 맞춤화할 수 있는 젬스(Gems)라는 새로운 기능 업데이트가 이뤄졌다.

젬스는 제미나이를 개인화할 수 있는 기능. 구독자는 젬스에게 어떤 역할을 맡기고 싶은지 설명하면 설정이 완료된다. 예를 들어 당신은 내 러닝 코치라며 매일 러닝 계획을 세워달라고 입력하면 이후에는 러닝 코치로 개인화된 제미나이와 원활한 대화가 가능하다. 젬스 정식 출시 일정은 미정이지만 5월 15일 기준으로 앞으로 수개월 내라고 한다.

구글은 그 뿐 아니라 제미나이 나노(Gemini Nano) 모델을 크롬 데스크톱 클라이언트에 직접 탑재하기로 했다. 이를 통해 제품 리뷰나 SNS 게시물과 같은 짧은 문장 작성에 도움이 되는 기능(Help me write)이 강화된다. 구현은 크롬 126부터 시작된다.

이를 통해 사용자는 구글 서버에 접속하지 않고도 생성형 AI에 빠르게 접근할 수 있게 된다. 제미나이 나노를 사용해 현재 프리뷰 프로그램으로 배포되고 있는 기능이 강화될 것으로 보인다.

글쓰기 도움(Help me write)은 웹사이트 텍스트 필드에서 우클릭해 호출하고 프롬프트를 입력하면 AI가 짧은 문장을 생성해주는 기능. 현재는 미국 내 영어 전용 기능으로 사용할 수 있다. 번역, 자막 생성, 음성 인식 같은 기능도 브라우저 상에서 사용할 수 있을 예정이다.

구글 크롬 제품 관리 디렉터는 다른 브라우저에서도 구글 AI 기능을 사용할 수 있도록 벤더와 협의 중이라고 밝혔다. 제미나이 나노가 탑재된 크롬 126 안정화 버전은 6월 5일 이후에 배포 예정이다. 또 제미나이 나노에는 곧 멀티모달 기능이 추가되어 텍스트, 음성, 이미지 등 다중 정보를 동시에 처리할 수 있게 된다.

구글은 이 날 행사에서 교육 연구를 기반으로 학습용으로 미세조정한 새로운 AI 모델인 런LM(LearnLM)을 발표했다. 런LM 기반은 구글 채팅 AI인 제미나이다.

제미나이 기반으로 교육 연구를 바탕으로 개발된 AI 모델인 런LM은 학습 방식에 맞춰 조정되어 있으며 학습 경험을 더 매력적이고 개인화되며 유용하게 만들어준다.

구글은 런LM 개발 과정에서 교육자, 전문가와 협력해 몇 가지 원칙을 AI 모델과 이를 활용한 제품에 반영했다. 첫째 적극적인 학습 촉진. 시의적절한 피드백을 통해 연습과 건전한 과제 수행이 가능해진다. 둘째 인지 부하 관리. 관련성 있고 적절히 구조화된 정보를 여러 매체로 제시한다. 셋째 학습자 적응. 관련 교재를 바탕으로 목표와 니즈에 동적으로 적응한다. 넷째 호기심 자극. 몰입도를 높이고 학습 과정 내내 동기를 부여한다. 5번째 메타인지 심화. 계획 수립, 모니터링, 학습자 스스로 진척상황을 되돌아볼 수 있도록 지원한다.

구글은 구글 검색, 유튜브, 제미나이 같은 제품에서 학습 경험을 강화하고 단순히 답을 제공하는 게 아닌 학습과 이해를 심화할 수 있도록 런LM을 도입한다. 구글 검색에서는 AI가 검색 결과를 요약해주는 AI 개요에서 자신에게 가장 도움이 되는 형식으로 조정할 수 있어 복잡한 주제를 더 잘 이해할 수 있다.

안드로이드에선 써클투서치(Circle to Search)를 사용해 스마트폰이나 태블릿에서 직접 수학, 물리 문제를 단계적으로 학습할 수 있다. 또 2024년 후반에는 써클투서치에서 기호 수식, 그림, 그래프 등을 포함한 더 복잡한 문제 검색이 가능해진다.

또 채팅봇 제미나이에선 곧 모든 주제에 대해 전문가 역할을 하는 제미나이 커스텀 버전인 젬(Gem)을 사용할 수 있게 된다. 기존에 있던 젬 중 하나인 학습 코치는 퀴즈, 게임 등 유용한 연습 활동과 함께 단계적 학습 안내를 제공하여 지식 구축을 지원한다. 제미나이 학습 코치 기능은 앞으로 몇 개월 내 출시 예정이며 제미나이 어드밴스드를 사용하면 개인 학습 취향에 맞춰 젬을 추가로 커스터마이징할 수 있다고 한다.

유튜브에선 대화형 AI 도구를 사용해 학술 영상을 시청하면서 비유적으로 손들기를 할 수 있어 명확한 질문을 하거나 유용한 설명을 얻거나 학습 내용 관련 퀴즈에 답할 수 있다. 이는 제미나이 모델 장문 컨텍스트 기능 덕분에 강의, 세미나 등 긴 교육 영상에서도 작동한다. 이런 기능은 이미 미국 일부 안드로이드 사용자에게 제공되고 있다.

이 외에도 구글은 런LM과 기존 제품에 더해 학습 확장을 위한 새로운 도구와 경험도 구축하고 있다. 그 중 하나가 연구 논문을 짧은 음성 대화로 분할하는 새로운 도구 일루미네이트(Illuminate)다. 일루미네이트는 몇 분 만에 AI가 생성한 대화 음성 2개를 포함한 오디오를 생성해 복잡한 논문에서 중요한 통찰을 요약할 수 있다.

또 고품질 콘텐츠, 학습 과학, 대화형 경험을 통합해 정보를 어떻게 이해로 전환할 수 있는지 탐구하는 새로운 실험적 경험 런어바웃(Learn About)도 개발됐다. 런어바웃에서 질문하면 사진, 비디오, 웹페이지, 활동을 통해 주제 이해를 심화할 수 있다. 중간에 파일이나 메모를 업로드하고 복잡한 질문을 할 수도 있다.

구글 딥마인드는 AI 생성 콘텐츠에 워터마크를 넣어 가짜 이미지 확산을 방지하는 도구인 신스ID(SynthID)를 기존 이미지 뿐 아니라 텍스트와 동영상에도 확장한다고 발표했다.

지난 2023년 8월 구글 딥마인드는 AI로 생성된 이미지에 전자 워터마크를 넣어 AI가 생성한 이미지임을 나타내는 도구인 신스ID를 발표했다. 신스ID는 이미지 픽셀에 전자 워터마크를 삽입해 메타데이터를 삭제하거나 이미지를 편집해도 AI 생성 이미지인지를 구별할 수 있게 해준다

이번에는 신스ID 기능을 확장해 구글 AI 제미나이 앱과 웹 버전에서 생성한 텍스트와 새로운 동영상 생성형 AI 모델 베오가 생성한 동영상에도 전자 워터마크를 넣을 수 있게 됐다. 동영상은 개별 프레임 또는 정지 화면으로 구성되어 있기 때문에 AI 생성 동영상에 넣는 신스ID 전자 워터마크 방식은 이미지용과 비슷하다. 동영상을 구성하는 모든 프레임 픽셀에 전자 워터마크를 삽입해 인간 눈에는 보이지 않지만 시스템이 AI 생성 동영상을 식별할 수 있게 해준다. 구글 딥마인드는 이미 베오를 활용한 새로운 동영상 생성 도구 비디오FX에서 생성되는 모든 동영상에 신스ID 전자 워터마크가 들어가게 된다고 설명하고 있다.

한편 AI 생성 텍스트에 삽입하는 전자 워터마크 방식은 이미지나 동영상과 다르다. 대규모 언어 모델은 프롬프트에 대한 텍스트를 생성하는데 이 생성 텍스트는 정보 처리 단위인 토큰을 기반으로 한다. 토큰은 개별 단어나 문자를 숫자로 표현한 것이며 대규모 언어 모델은 이 토큰 다음에 어떤 토큰이 올 가능성이 높은지를 예측해 의미 있고 자연스러운 문장을 생성한다. 각 토큰에는 그것이 올바른지의 확률 점수가 부여되며, 점수가 높은 토큰일수록 사용될 가능성이 높다. 신스ID는 이 텍스트 생성 과정에서 토큰 점수를 텍스트 품질이나 정확성을 해치지 않는 선에서 조정해 생성된 텍스트에 AI에서 자주 보이는 패턴을 삽입하는 방식이다. 텍스트 패턴을 비교함으로써 신스ID는 AI 도구가 텍스트를 생성했는지 아니면 다른 소스에서 텍스트가 생성됐는지를 구별할 수 있다는 주장이다.

신스ID 텍스트 전자 워터마크는 긴 응답, 에세이, 연극 대본, 이메일 본문 등 다양한 상황에서 기능한다. 또 문장 여러 부분에 워터마크가 삽입되므로 텍스트 일부를 발췌하거나 단어를 바꾸거나 문장을 조금 수정해도 워터마크는 유효하다. 하지만 AI가 생성한 텍스트가 철저히 다시 쓰이거나 다른 언어로 번역되면 신뢰도 점수가 크게 낮아질 수 있다. 또 워터마크가 텍스트 문체에 삽입되므로 짧은 응답이나 사실에 기반한 프롬프트에서는 정확도가 떨어진다.

신스ID 텍스트 전자 워터마크는 대부분 텍스트 생성 AI와 호환되며 다양한 콘텐츠 유형과 플랫폼 전반에 걸쳐 확장 가능하도록 설계됐다. 구글은 앞으로 몇 개월 내에 신스ID 텍스트 전자 워터마크를 오픈소스화해 더 많은 개발자가 책임감 있게 AI를 구축할 수 있도록 할 것이라고 밝혔다.

구글은 또 6세대 TPU(Tensor Processing Unit) 트릴리움(Trillium)을 발표했다. 이번 행사 기조연설에서 공개된 트릴리움은 지금까지 구글이 내놓은 TPU 중 가장 성능과 에너지 효율이 뛰어나다고 한다.

트릴리움은 이전 세대 TPU v5e와 비교했을 때 칩당 최대 성능이 4.7배나 향상됐다. 이를 위해 구글은 TPU MXU 크기를 확장하고 클럭 속도를 높였다.

트릴리움은 또 고대역폭 메모리인 HBM 용량과 대역폭이 2배 늘어나 더 큰 모델을 다룰 수 있게 됐다. 차세대 HBM을 채택해 높은 메모리 대역폭, 향상된 전력 효율, 유연한 채널 아키텍처를 구현했고 메모리 처리량도 개선된 것. 이에 따라 대규모 모델 훈련 시간과 처리 대기 시간이 단축된다.

트릴리움은 칩간 상호연결(ICI) 대역폭도 2배로 늘었다. ICI 대역폭 증가로 256개 칩으로 이뤄진 포드 내 커스텀 광ICI 상호연결과 수백 개 포드까지 확장 가능한 구글 주피터 네트워킹(Google Jupiter Networking)과 결합해 훈련과 추론 작업을 수만 개 칩까지 확장할 수 있게 됐다.

초대규모 임베딩 처리를 위한 전용 가속기인 3세대 스파스코어(SparseCore)도 탑재했다. 스파스코어는 임베딩 많은 워크로드 가속화에 성공했다고 한다.

트릴리움을 사용하면 기초 모델을 더 빠르게 학습시키고 대기 시간을 줄이며 비용을 절감해 모델을 제공할 수 있다. 또 TPU v5e 대비 에너지 효율이 67% 이상 향상됐다. 트릴리움은 단일 고대역폭, 저지연 포드에서 최대 256개 칩까지 확장 가능하며 멀티슬라이스 기술과 IPU(Intelligent Processing Unit)를 활용해 수백 개 포드, 수만 개 칩으로 연결된 빌딩 규모 슈퍼컴퓨터까지 확장할 수 있다. 구글 클라우드 사용자는 2024년 후반부터 트릴리움을 사용할 수 있다.

구글은 비주얼 언어 모델(VLM) 팔리젬마(PaliGemma)와 대규모 언어 모델(LLM) 젬마 2(Gemma 2)도 발표했다. 팔리젬마는 이미 출시됐고 손쉽게 사용해볼 수 있는 데모 사이트도 공개된 상태다.

먼저 팔리젬마는 이미지를 인식해 이미지 내용 설명, 이미지 내 텍스트 이해, 이미지 내 객체와 배경 분리 같은 작업을 수행할 수 있는 비주얼 언어 모델. 팔리젬마는 깃허브, 허깅페이스 등에서 내려 받을 수 있으며 엔비디아도 자사 GPU에 최적화된 팔리젬마를 개발 중이다.

다음은 젬마 2. 제미나이 연구 자원을 활용한 오픈소스 LLM으로 파라미터 수는 27억 개로 파라미터 수 70억 개인 LLaMA 3에 필적하는 성능을 발휘한다고 한다. 젬마 2는 또 엔비디아 GPU와 구글 AI 플랫폼 버텍스 AI에 최적화되어 있어 동급 모델 대비 절반 이하 리소스로 구동할 수 있다.

현재 젬마 2는 사전 학습 중이지만 이미 다양한 벤치마크 테스트에서 그록(Grok)을 능가하는 점수를 기록했다. 젬마 2는 앞으로 몇 주 내에 공개 예정이다.

구글은 또 I/O 2023 기간 중 발표한 눈썹이나 입 움직임 등으로 마우스 커서를 제어할 수 있는 오픈소스 프로젝트인 프로젝트 게임페이스(Project Gameface)를 안드로이드에서도 사용할 수 있게 됐다.

프로젝트 게임페이스는 진행성 근력 저하 질환인 근디스트로피(muscular dystrophy) 환자이자 게임 스트리머인 랜스 카 이야기에서 영감을 받아 개발된 도구다. 이미 플레이어빌리티(playAbility) 같은 기업이 프로젝트 게임페이스를 활용한 제품을 개발하고 있다.

구글은 모든 안드로이드 앱 개발자가 프로젝트 게임페이스를 사용할 수 있도록 이를 오픈소스화할 것이라고 발표했다. 이를 통해 안드로이드 기기 카메라로 얼굴 표정과 머리 움직임을 원활하게 추적하고 이를 직관적이고 개인화된 조작으로 변환할 수 있게 된다. 또 앱 개발자는 표정과 제스처로 커서를 조작하는 경험을 사용자가 커스터마이징할 수 있도록 표정이나 제스처, 크기, 커서 속도 등을 미세 조정할 수 있는 애플리케이션을 구축할 수 있게 된다.

구글은 안드로이드용 프로젝트 게임페이스 개발에 있어 3가지 기본 원칙을 바탕으로 진행했다고 밝혔다. 첫째 장애인에게 안드로이드 기기 조작을 위한 새로운 추가 수단을 제공한다. 둘째 확장 가능한 사용을 가능케 하는 일반에 공개된 비용 대비 효과가 높은 솔루션을 구축한다. 셋째 프로젝트 게임페이스 초기 출시 때 배운 점과 지침을 활용해 제품을 사용자 친화적이고 커스터마이징 가능하게 만든다.

안드로이드 버전 프로젝트 게임페이스에서는 일반 프로젝트 게임페이스와 마찬가지로 기기를 조작할 수 있도록 가상 커서를 도입했다. 안드로이드 접근성 서비스를 사용해 커서를 생성하고 미디어파이프 얼굴 감지 API를 활용해 사용자 머리 움직임에 맞춰 커서가 움직이도록 프로그래밍되어 있다. 이 API는 왼쪽 눈썹 올리기, 입 벌리기 등 52가지 얼굴 제스처를 나타내는 얼굴 블렌드 셰이프 값을 갖고 있어 이를 활용해 다양한 기능을 효과적으로 맵핑하고 제어할 수 있으며 사용자에게 커스터마이징과 조작 가능성을 넓혔다. 개발자가 특정 식별자에 대해 다른 임계값을 설정할 수 있도록 하는 블렌드 셰이프 계수도 활용해 경험을 커스터마이징하는 데 도움이 된다. 오픈소스화된 프로젝트 게임페이스는 깃허브에서 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사