구글 I/O 2023, 어떤 기술‧제품 쏟아졌나

5월 11일부터 구글 연차 개발자용 행사인 구글 I/O 2023(Google I/O 2023) 기조 강연이 시작됐다. 구글이 개발하는 픽셀 시리즈 첫 접이식 스마트폰인 픽셀 폴드(Pixel Fold)나 대규모 언어 모델 차세대 버전인 PaLM 2 등이 발표됐다.

먼저 구글은 대규모 언어 모델 PaLM 차기 버전 격인 PaLM 2를 발표했다. PaLM 2는 이미 구글 내 다양한 서비스에 도입됐으며 채팅 AI인 바드(Bard)에서도 PaLM 2가 이미 사용되고 있다고 한다.

PaLM 2은 오픈AI가 내놓은 GPT-4와 경쟁을 하는 LLM이다. PaLM 2는 추론과 다국어 번역, 코딩을 포함한 다양한 태스크에 있어 뛰어난 성능을 발휘할 수 있다고 한다. PaLM 2은 복잡한 작업을 더 간단한 하위 작업으로 분해할 수 있으며 PaLM과 같은 이전 LLM보다 인간 언어 뉘앙스를 더 잘 이해할 수 있다. 예를 들어 말 그대로의 의미가 아니라 애매하고 비유적 의미를 이해할 필요가 있는 관용구 이해가 뛰어나다고 한다.

PaLM 2는 병렬 다국어 텍스트와 PaLM보다 훨씬 다양한 언어 코퍼스로 사전 학습된다. 이를 통해 PaLM 2는 다국어 작업에 뛰어나다. 구체적으로 다양한 언어 관용구를 이해할 수 있으며 독일어 고유 문구 등도 직역 뿐 아니라 올바르게 이해할 수 있다고 한다.

PaLM 2는 대량 웹페이지와 소스 코드, 그 외 데이터세트로 사전 학습되고 있기 때문에 파이썬이나 자바스크립트 등 일반 프로그래밍 언어가 뛰어날 뿐 아니라 프로로그, 포트란, 베리로그 등 특수한 코딩에도 대응하고 있다.

이런 PaLM 2는 이미 구글 검색을 포함한 25개 구글 서비스에 도입됐다. PaLM 2 기능 설명 연구 논문에서 구글 측은 PaLM 2의 언어 숙련도에 대해 해당 언어를 가르치기에 충분하다고 강조하고 있다. 이유는 PaLM 2 학습에 영어 이외 텍스트가 많이 포함되어 있기 때문이다.

PaLM에는 건강 데이터로 학습된 버전인 Med-PaLM 2가 있다. 덕분에 미국 의사 면허 시험에서 출제되는 질문과 같은 수준 질문에도 답변을 할 수 있다고 한다. 그 밖에 사이버 보안 관련 데이터로 학습된 Sec-PaLM 2가 있으며 이는 잠재적 악성 스크립트 동작을 설명하고 코드에서 위협을 탐지하는데 도움이 된다. 이들 2개 모델은 모두 구글 클라우드를 통해 사용할 수 있다.

PaLM 2가 도입된 서비스 중 하나는 앞서 밝힌 채팅 AI인 바드다. 바드는 PaLM 2 도입으로 코딩 기능 향상이나 언어 지원 강화 등을 실현하고 있다. 바드는 또 PaLM 2 도입으로 20개 이상 프로그래밍 언어에 대응한다. 바드 측 출력과 사용자 측 프롬프트 모두 텍스트 뿐 아니라 이미지도 지원한다. 그 밖에 바드가 업그레이드되며 출력 내용을 G메일이나 구글 문서로 가져올 수도 있다.

바드에선 곧 확장 기능을 출시할 예정이며 구글 이외 서비스를 이용할 수 있다. 예를 들어 어도비 제너레이티브 AI인 파이어플라이(Firefly)와 통합이 이미 발표되어 바드를 통해 파이어플라이를 사용할 수 있다.

바드는 또 180개가 넘는 국가와 지역에서 이용 가능하며 한국어를 포함한 40개 언어에 대응한다. 그 밖에 구글 문서 도구, 구글 프레젠테이션, 구글 스프레드시트 등 구글 워크플레이스 앱 개선에도 PaLM 2가 사용된다. G메일에선 AI를 이용한 회신 기능(Help me write)이 도입된다. G메일에서 채팅 Ai와 커뮤니케이션을 하면서 이메일로 사용하는 문언을 AI에 작성할 수 있게 하는 것이다. 구글 스프레드시트라면 AI에 표 작성을 맡길 수도 있다. 구글 프레젠테이션을 이용하면 AI가 프레젠테이션 자료를 브러시업할 수 있으며 생성한 프레젠테이션을 기반으로 화자용 대본을 만들 수 있다. 구글 검색에선 기존 검색 결과 위에 AI에 의한 출력이 표시되는 형태로 출력을 무시하거나 AI와 대화를 계속할 수 있다.

개발에 엄청난 시간이나 리소스가 필요한 다른 LLM과 마찬가지로 PaLM 2는 단일 제품이 아닌 제품군과 비슷해 다양한 버전이 소비자 설정이나 기업 측 설정에 따라 확장된다. 4가지 크기(Gecko, Otter, Bison, Unicorn) 버전이 배포될 예정이며 기업 고객을 위해 특정 작업을 수행할 수 있도록 도메인별 데이터를 기반으로 미세 조정될 계획이다. PaLM 2 중 가장 경량(Gecko)은 스마트폰 같은 기기 상에서 오프라인에서도 동작 가능할 만큼 작고 초당 20토큰을 처리할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

구글은 또 안드로이드 스튜디오에서 사용할 수 있는 프로그래밍 보조 AI인 스튜디오 봇(Studio Bot)도 발표했다. 스튜디오 봇은 구글 대규모 언어 모델인 PaLM 2 파생 언어 모델인 코디(Codey)를 채택하고 있어 개발자 요구에 맞춘 힌트 제공, 만들고 싶은 기능을 실현하기 위한 코드 생성 같은 조작을 실현할 수 있게 해준다.

Introducing… Studio Bot, an AI-powered conversational experience in @androidstudio that helps you generate code and fix errors! Now available as an early experiment in Android Studio Hedgehog.

Follow along in the thread for more pic.twitter.com/2xDzIY4ilV
— Android Developers (@AndroidDev) May 10, 2023

스튜디오 봇에선 안드로이드에서 위치 정보를 얻는 가장 좋은 방법은 뭐냐는 질문을 던지면 의문을 해결할 수 있는 힌트를 제공한다. 또 앱을 다크 테마에 대응시키려면 어떻게 하면 좋냐고 질문하면 기능 실현을 위한 코드를 생성해준다. 생성 코드는 클릭 한 번으로 편집 중인 파일에 추가할 수 있다.

스튜디오 봇은 이미 안드로이드 스튜디오 개발(Canary Build) 버전에서 사용할 수 있다. 다만 지금은 미국 국내 이용으로 제한되어 있다.

구글은 입력한 텍스트로 음악을 자동 생성하는 AI인 뮤직LM(MusicLM)을 5월 11일부터 공개한다고 발표했다. 구글 AI를 체험할 수 있는 앱인 AT 테스트 키친(AI Test Kitchen)에 등록되어 있으면 일정 제한으로 뮤직LM을 체험할 수 있다.

뮤직LM은 2023년 1월 구글이 발표한 자작곡 AI 모델. 28만 시간 음악으로 이뤄진 데이터세트를 통해 학습받았고 텍스트 내용에 맞는 음악을 생성할 수 있다. 지난 1월 뮤직LM 관련 논문이 발표됐을 때 연구팀은 교육용 데이터세트에 저작권으로 보호된 콘텐츠가 포함될 수 있으며 윤리적 과제가 있다고 지적하고 있으며 구글은 뮤직LM을 당분간 출시할 계획은 없다고 밝힌 바 있다.

구글은 책임 있는 혁신은 혼자 일어날 수 없다며 전문 뮤지션과 협력해 학습 데이터세트 음악을 만드는 워크숍을 주최했다며 이 워크숍을 통해 윤리적 과제를 해결해 안드로이드 앱과 iOS 앱, 웹 브라우저로 제공되는 AI 테스트 키친에서 체험할 수 있게 됐다고 밝히고 있다.

뮤직LM은 공부를 위한 앰비언트 뮤직, 디너 파티에 맞는 소울 스타일 재즈송 등 곡 분위기나 목적을 텍스트로 지정하면 자동으로 음악을 생성하는 게 가능하다. 구글은 뮤직LM이 전문 음악각든 초보자든 광고 소재를 표현하는데 도움이 되는 실험적 도구라고 소개한다. 다만 공개 당시 윤리적 과제를 해결한 데이터세트로 학습하고 있기 때문에 공개된 뮤직LM에선 특정 아티스트에 의한 연주나 가성을 재현한 것 같은 음악은 생성할 수 없다고 한다. 이곳은 등록 대기 목록에 등록해야 체험할 수 있다.

구글은 또 영상 음성을 자동 인식해 음성 톤을 바꾸지 않은 채 다른 언어로 변역해주는 AI 기술인 유니버설 번역기(Universal Translator)도 발표했다. 구글은 이 기술을 이용해 대학 온라인 강의를 자동 보충하는 데모도 함께 공개했다. 오리지널 영상은 영어로 강의가 진행되지만 변환 버전에선 원본과 같은 성색을 유지하면서 다른 언어로 강의를 진행한다. 음성에 맞춰 입 움직임도 변화하고 있다.

유니버설 번역기는 번역, 인토네이션 조정, 화자 목소리를 재현한 음성 생성, 입 움직임 조정이라는 단계를 거쳐 이 기능을 실현하고 있다. 유니버설 번역이 블리딩 기능은 강력하지만 딥페이크 제작 등 악용될 가능성도 있다. 따라서 구글은 유니버설 번역기를 인증 파트너에게만 제공할 것이라고 한다.

구글은 그 밖에 이번 행사에서 독자적으로 학습시킨 제너레이티브 AI로 구축한 카드 게임인 I/O FLIP도 공개했다. I/O FLIP은 공격력이나 속성이 다른 카드를 조합해 덱을 구축해 상대방과 승부를 펼치는 카드 게임이다. AI가 설계하고 구글이 공개한 무료 온라인 대전 카드 게임이다. 관련 내용은 이곳에서 확인할 수 있다.

이번 행사에선 구글 순정 하드웨어도 발표했다. 먼저 순정 스마트폰 시리즈인 픽셀 새 모델인 픽셀 7a(Pixel 7a). 픽셀 7 시리즈와 마찬가지로 구글 텐서 G2(Google Tensor G2) 칩을 탑재했고 램은 8GB, 저장 공간은 128GB다. 배터리는 4,385mAh이며 급속‧무선 충전을 지원한다. 화면 크기는 6.1인치, 해상도는 2400×1080, 픽셀 밀도 429ppi를 지원하며 크기는 152×72.9×9mm, 무게는 193.5g이다. 색상은 4가지(Coral, Sea, Snow, Chacoal) 가운데 고를 수 있다.

Like all #Pixel7 series devices, #Pixel7a is powered by our #GoogleTensor G2 chip and 8GB RAM to bring you incredible performance and intelligence.#GoogleIO pic.twitter.com/oQCnzvRN44
— Made by Google (@madebygoogle) May 10, 2023

메인 카메라는 6,400만 화소 광각(Quad PD Quad Bayer) 카메라로 카메라 센서 크기는 픽셀 6a보다 72%나 커졌다고 한다. 또 복수 AI 기능을 갖췄다. 예를 들어 구글 포토 내 매직 에디터에선 사진 중 피사체 위치를 자유롭게 이동시키는 게 가능하다. 그 밖에 픽셀 콜 어시스트(Pixel Call Assist) 기능은 긴 대기 시간을 피하거나 스팸 호출을 무시하고 음질을 높일 수 있게 해준다. 픽셀 스피치(Pixel Speech) 기능은 언어 번역이나 실시간 문자로 사용자가 말하는 방법이나 입력을 이해하는 게 가능하다.

함께 발표한 픽셀 폴드는 2023년 가을 무렵 출시 예정이다. 가격은 1,799달러부터다.

이 제품은 디스플레이 크기는 7.6인치이며 접은 상태에서도 5.8인치 디스플레이를 이용할 수 있다. 180도 접을 수 있는 스무스 힌지를 채택하고 있으며 디스플레이 리프레시 레이트는 최대 120Hz다.

접는 구조를 살린 사진 촬영도 할 수 있다. 메인 카메라는 접이식 스마트폰에선 사상 최고 수준인 줌 기능을 탑재했고 메인 카메라 셀카 촬영도 가능하다. 작업 표시줄에서 앱 2개를 드래그하기만 하면 분할 화면에서 앱 2개를 동시에 실행할 수도 있다. 화상회의를 하면서 프레젠테이션 자료를 열거나 브라우저 앱에서 여러 탭을 열 수도 있는 것. 화면 상단에선 유튜브 영상을 재생하고 화단에선 재생 컨트롤을 표시할 수도 있다.

Introducing Google #PixelFold

Starting at $1799, this ultra-premium device combines personal AI, #GoogleTensor G2, and @Android innovation for a #Pixel smartphone that unfolds into an incredible compact tablet.#GoogleIO pic.twitter.com/cTxPZBcKq2
— Made by Google (@madebygoogle) May 10, 2023

메인 카메라는 트리플 카메라 구성으로 10.8메가픽셀 울트라 와이드 배면 렌즈, 48메가 픽셀 메인 렌즈, 광학 5배, 망원 배면 렌즈 3개를 탑재했다. 메인 카메라를 이용한 셀카가 앞서 밝혔듯 가능해 지금까지 없던 고화질 셀카를 누구나 쉽게 찍을 수 있다.

램은 12GB이며 배터리 용량은 4,821mAh다. 무선 충전에는 대응하지만 무선 급속 충전이나 배터리 공유에는 대응하지 않는다. 타이탄 M2 보안 칩과 보안 코어 탑재로 지문 인증, 얼굴 인증, 구글 원 VPN도 지원한다.

구글은 또 11인치 태블릿인 픽셀 태블릿(Pixel Tablet)도 발표했다. 스피커를 겸한 충전 독도 함께 제공한다.

이 제품은 물론 독 없이도 사용하기 쉽고 스탠드는 멀티 앵글을 지원해 모든 각도로 세울 수 있다. 허브 모드에도 대응해 디지털 포토 프레임으로 사용하거나 스마트홈 컨트롤러로 쓰거나 혹은 음성 인식 도우미로 쓰고 동영상이나 음악 등을 공유할 수도 있다. 여러 명이 같은 태블릿을 사용할 수 있고 사용자 전환도 간단하다.

It’s time to officially meet #PixelTablet

Engineered by @Google to be helpful in your hand, and in the home.#GoogleIO pic.twitter.com/aDgUbnVtnL
— Made by Google (@madebygoogle) May 10, 2023

태블릿으론 처음으로 크롬캐스트를 탑재해 스마트폰으로 재생하고 있는 콘텐츠를 픽셀 태블릿으로 계속 재생하는 것도 가능하다. 또 초고속 지문 센서를 탑재해 잠금을 빠르게 해제할 수 있으며 유튜브 뮤직, 구글TV 같은 안드로이드 앱에 빠르게 액세스할 수도 있다.

구글 홈 앱을 재설계해 픽셀 태블릿을 스마트홈 기기 허브로 이용할 수 있으며 구글 홈 앱은 매터 지원 기기를 포함한 8만 종류 이상 스마트홈 기기를 통합할 수 있다.

기본 사양을 보면 디스플레이는 해상도 2560×1600, 픽셀 밀도 276ppi를 지원하는 10.95인치이며 배터리는 27Wh, 램은 8GB, 저장용량은 128 혹은 256GB 중 선택할 수 있다. 크기는 169×258×8.1mm이며 무게는 493g이다. 가격은 499달러다.

구글은 이번 행사에서 AI 학습과 가동에 특화된 슈퍼컴퓨터인 A3도 발표했다. 구글에 따르면 A3 슈퍼컴퓨터는 엔비디아 호퍼(Hopper) 아키텍처를 채택한 H100 GPU 8기를 내장해 기존보다 성능이 3배에 이른다고 한다.

심장부에는 DDR5-4800 메모리 2TB, 인텔 4세대 제온 스케일러블 프로세서를 채택했고 GPU 8기는 각각 엔비디아 NV스위치(NVSwitch)와 NV링크(NVLink) 4.0에 의한 초당 3.6TB 대역폭으로 접속되어 있다. 이런 기계학습에 특화한 전용 설계로 A3은 최대 26EFLOPS AI 성능을 발휘해 대규모 모델 학습 시간과 비용을 대폭 줄여준다.

구글에 따르면 A3은 호스트 CPU를 우회해 200Gbps로 데이터를 공유할 수 있는 GPU간 데이터 인터페이스를 프로덕션 수준에서 도입한 첫 제품이라고 한다. IPU(Infrastructure Processing Unit)라고 불리는 이 인터페이스로 A3 VM이 활용할 수 있는 네트워크 대역폭은 A2 10배에 이른다.

구글은 또 2021년 발표한 프로젝트 스타라인(Project Starline) 최신 프로토타입도 공개했다.

프로젝트 스타라인은 원격지에서도 실제로 얼굴을 보며 이야기하는 것처럼 느껴지는 새로운 커뮤니케이션 툴을 개발하는 게 목적이다. 2021년 발표한 이 기술을 구사하면 상대방을 리얼한 3D 홀고르램으로 표현한다. 따라서 원격지에 있는 사람도 실제로 여기에 있는 것처럼 커뮤니케이션을 취할 수 있다. 구글은 프로젝트 스타라인에서 개발하는 도구를 마법의 거울로 표현하고 있으며 이 거울을 통해 상대방과 자연스러운 대호를 즐길 수 있다.

2021년 당시 프로젝트 스타라인은 개발 중인 단계여서 사용에는 맞춤형 하드웨어와 고도로 전문화된 장비가 필요했다. 따라서 당시 프로젝트 스타라인은 거대했고 사용례도 크게 제한됐다.

이번에 발표한 프로젝트 스타라인 프로토타입은 상대방과의 대화를 가능하면 현실적으로 한다는 당초 목적은 그대로 둔 채 40인치 TV 정도로 프로젝트 스타라인을 소형화해 카메라 수를 줄였다. 소형화에 성공하면서 사무실 내에서 이동도 용이하게 됐다. 화면 위와 좌우에는 3D 모델 생성에 필요한 시각 데이터를 얻는 전용 카메라를 달았다.

2021년 공개된 프로젝트 스타라인은 모든 각도에서 대상 인물을 캡처하기 위해 카메라 몇 대가 필요했고 설치에는 방 하나가 필요했다. 하지만 이번에 공개한 프로토타입에선 AI와 기계학습을 이용해 카메라 여러 대로 피사체 3D 모델을 생성할 수 있다. 구글은 지금까지의 프로젝트 스타라인은 레스토랑 테이블석 같은 크기였지만 새 프로토타입은 평면TV 크기로 소형화했다고 밝히고 있다.

구글은 또 이전 프로토타입은 라이브 3D 모델을 생성하기 위해 적외선 이미터나 특수 카메라 등 복잡한 하드웨어가 필요했기 때문에 크기가 거대해 사무실 도입이 어려웠다고 밝히고 있다.

이번에 발표한 프로젝트 스타라인 프로토타입은 세일즈포스나 티모바일, 위워크와 공유해 다양한 사무실에서 일하는 직원과 대화를 얼마나 원활하게 할 수 있는지 피드백을 받고 있다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

구글은 그 밖에 이 자리에서 스마트워치용 운영체제 차기 버전인 웨어OS 4(Wear OS 4)를 발표했다.

가을 출시 예정인 웨어OS 4 포인트는 배터리 수명과 자신에게 필요한 옵션 기능 향상, 기종 변경을 더 간편하게 해주는 복원 도구, 삼성전자와 공동 구축한 워치 페이스 포맷(Watch Face Format)이다. 이 포맷을 이용하면 개발자는 코드를 작성하지 않고 선언적 XML 포맷으로 시계 모드 그러니까 문자판을 만들고 구글플레이에 게시할 수 있다.

웨어OS 플랫폼이 워치 페이스를 렌러딩하는데 필요한 로직을 처리하기 때문에 개발자는 코드 최적화나 배터리 성능에 어려움을 겪지 않는다. 다시 말해 성능이나 배터리 소비 개선을 즐기거나 새로운 버그를 수정하기 위해 워치 페이스를 업데이트할 필요가 없다.

워치 페이스 디자인에도 다양한 콘셉트를 도입할 수 있다. 예를 들어 아날로그와 디지털 보드 표면 등 복잡한 기능을 포함한 다양한 정보를 표시할 수도 있다. 아이디어를 더한 특색 있는 디자인도 실현할 수 있다. 워치 페이스 포맷에선 웨어OS 일부로 워치 페이스 에디터가 내장되어 있어 사용자가 워치 페이스를 커스터마이징하기 위해 직접 데이터를 만들 필요가 없다. 워치 페이스 포맷 발표에 맞춰 삼성전자는 워치페이스 스튜디오 최신 버전을 공개하고 있으며 개발자는 곧바로 오리지널 워치 페이스를 만들 수 있다.

구글에 따르면 웨어OS 4에선 배터리 수명 개선이나 더 빠르고 신뢰성 높은 새로운 텍스트 독해 엔진을 비롯한 접근성 기능 개선도 도입할 예정이라고 한다. 또 네이티브 백업과 복원 도구 지원을 통해 웨어OS 사용자는 모델 변경도 쉽고 안전하며 새로운 웨어OS를 설정하면 자동으로 스마트폰에 부여된 모든 권한이 시계로 인계된다.

구글은 또 네이티브 캘린더 앱과 G메일 앱을 웨어OS에 배포하기 위해 노력하고 있다. 이런 앱을 이용하면 스마트워치에서 직접 일정을 관리하거나 이메일을 회신할 수 있다. 구글은 올 가을 출시를 목표로 앞으로 몇 개월 안에 웨어OS에 대한 정보를 더 공개할 예정이다. 이미 개발자용 프리뷰 버전과 에뮬레이터가 나와 있어 개발자는 이를 활용해 웨어OS 4 공개를 위한 준비를 진행할 수 있다.

구글 I/O 2023, 어떤 기술‧제품 쏟아졌나

이 글 공유하기:

이석원 기자

추천기사

Topics

Recent posts

뉴스레터 구독

Email Newsletter

테크 레시피

Most popular

Most discussed