테크레시피

마이크로소프트, 코파일럿+PC용 언어 모델 공개했다

마이크로소프트는 2024년 5월 21일 개최된 개발자 연례 콘퍼런스인 마이크로소프트 빌드 2024(Microsoft Build 2024) 기조연설에서 AI PC인 코파일럿+PC(Copilot+ PC)에 탑재된 NPU 상에서 로컬 작동하는 소규모 언어 모델 파이-실리카(Phi-Silica)를 비롯한 40개 이상 API를 발표했다.

사티아 나델라 마이크로소프트 CEO는 기조연설에서 윈도를 AI 앱을 구축할 수 있는 최적의 플랫폼으로 만들기 위한 도구로 윈도 코파일럿 라이브러리(Windows Copilot Library)를 발표했다. 나델라 CEO에 따르면 윈도 코파일럿 라이브러리는 윈도에서 바로 사용할 수 있는 로컬 API를 모은 라이브러리로 파이-실리카는 여기에 포함된 AI 모델 중 하나다.

파이-실리카는 마이크로소프트 언어 모델인 파이(Phi) 패밀리 중 하나로 파라미터 수 33억 개로 가장 작은 규모 모델이다. 더불어 파이-실리카는 코파일럿+PC NPU에 최적화되어 로컬에서 실행할 수 있다고 한다.

나델라 CEO는 또 파이 패밀리에 파이-3-비전(Phi-3-vision), 파이-3-스몰(Phi-3-small), 파이-3-미디엄(Phi-3-midium)이라는 3가지 새로운 모델을 추가했다고 발표했다. 그 중에서도 파이-3-비전은 파라미터 수 42억 개로 콤팩트한 규모임에도 불구하고 이미지도 인식할 수 있는 멀티모달 AI 모델. 새로 추가된 파이-3 3개 모델은 모두 마이크로소프트 애저에서 사용할 수 있다.

마이크로소프트는 엔비디아와 제휴해 엔비디아 추론 마이크로서비스인 엔비디아 NIM(NVIDIA NIM)에도 파이-3 새 모델 3개를 제공한다고 밝혔다. 이들 모델은 모두 엔비디아 텐서RT-LLM으로 최적화되어 있으며 ai.nvidia.com 또는 애저 마켓플레이스(Azure Marketplace) 엔비디아 AI 엔터프라이즈(NVIDIA AI Enterprise)를 통해 입수할 수 있다.

나델라 CEO는 오픈AI GPT-4o 지원을 애저 AI 스튜디오(Azure AI Studio)에 추가한다고 발표했다. 기조연설에서는 게임 마인크래프트 화면을 GPT-4o에 인식시키고 GPT-4o와 대화하며 플레이하는 모습이 공개되기도 했다.

더불어 마이크로소프트와 온라인 AI 플랫폼 허깅페이스(Hugging Face)와의 파트너십이 확대되어 텍스트 임베딩 추론을 애저 AI 스튜디오에 직접 도입할 수 있게 됐다고 발표했다. 관련 내용은 이곳에서 확인할 수 있다.

마이크로소프트는 교육 분야에서 AI 가능성을 현실로 만들고 혁신에 대한 접근성을 확대하기 위해 비영리 교육단체인 칸아카데미(Khan Academy)와 파트너십을 체결했다고 발표했다. 파트너십 일환으로 마이크로소프트는 미국 모든 교육자에게 칸미고 포 티처(Khanmigo for Teachers)를 무료 제공한다고 설명했다.

칸미고(Khanmigo)는 지금까지 6만 5,000명 이상 학생이 사용해온 AI 가정교사다. 학생과 학부모, 교사가 사용할 수 있는 학습용 AI로 학부모가 자녀 숙제를 돕거나 교사가 학생을 위한 학습 계획을 세우는 데 사용할 수 있다. 하지만 사용하려면 월 4달러를 내야 했다.

이번에 칸미고 포 티처라는 교사용 버전을 5월 21일부터 미국 모든 교육자에게 무료로 제공한다고 양측이 밝힌 것. 칸미고 포 티처는 칸아카데미가 보유한 다수 무료 온라인 강의 콘텐츠를 활용해 교사 수업 계획 수립을 돕고 지도를 보조한다. 학생 흥미를 이끌 방법, 성취도 분석, 추천 과제 등을 제공한다고 한다.

칸미고 포 티처를 사용하면 교사가 수업 준비 시간을 대폭 줄일 수 있다. 과거 연구에 따르면 수업 준비 부담을 50% 이상 줄일 수 있다고 한다. 따라서 마이크로소프트와 칸아카데미는 새로운 파트너십 목표는 교사에게 학생 지도라는 진정 중요한 일에 집중할 수 있는 시간을 제공하는 것이라고 설명하고 있다.

칸미고 포 티처는 마이크로소프트 애저 오픈AI 서비스(Azure OpenAI Service)를 활용하기 때문에 오픈AI GPT-4, GPT-4o, 위스퍼(Whisper), 달리3(DALL-E 3) 등 AI 모델에 접근할 수 있다. 그 밖에도 다른 분야에서 상당한 비용 절감이 가능할 전망이다.

칸아카데미 설립자인 살 칸은 교사 직업은 과중 노동이라며 교사가 저임금에 과도한 업무량을 안고 있다고 지적했다. 교사가 AI를 사용하면 교육을 더 지속가능하게 만들 수 있다는 설명이다.

이에 더해 마이크로소프트는 소규모 언어모델인 파이3을 활용해 칸아카데미 수학 교육 콘텐츠를 개선하는 데 협력하기로 했다. 파이-3을 사용해 챗봇인 마이크로소프트 코파일럿과 마이크로소프트ㅡ 팀스 포 에듀케이션(Microsoft Teams for Education) 실용 학습 도구에 활용할 수 있는 수준 높은 학습 콘텐츠를 만들어낼 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

한편 AI 학습과 추론에 사용되는 AI 인프라스트럭처 시장에선 엔비디아 AI 전용 칩이 큰 시장 점유율을 차지하고 있다. 이런 가운데 마이크로소프트가 AMD 제조 AI 전용 칩인 MI300X를 활용한 AI 인프라스트럭처 ND MI300X v5를 애저에서 제공하기 시작했다고 발표했다.

소규모 AI 학습과 추론은 소비자용 GPU나 CPU로도 가능하지만 대규모 언어 모델 등 규모가 큰 AI 모델의 학습이나 추론을 실행할 경우 일반 GPU로는 비효율적이다. 이에 따라 엔비디아, 인텔, AMD 등 반도체 제조업체가 AI 학습‧추론용 칩을 개발하고 있다. 하지만 아직은 엔비디아 AI 전용 칩인 H100을 활용한 AI 처리 인프라스트럭처가 시장 점유율 대부분을 차지하고 있으며 AMD나 인텔 AI 전용 칩은 두드러지지 않은 존재다.

AMD가 개발한 MI300X는 H100에 비해 최대 1.6배 성능을 갖춘 AI 전용 칩으로 테스트 환경에 따라선 최대 2.1배 성능을 발휘했다는 보고도 있다. 또 2023년 12월 시점 오픈AI, 마이크로소프트, 메타, 오라클 등 AI 인프라스트럭처 제공업체가 MI300X 채택을 천명한 바 있다.

이런 가운데 새롭게 마이크로소프트는 MI300X를 활용한 AI 인프라스트럭처 ND MI300X v5를 애저 서비스로 제공하기 시작했다고 발표했다. ND MI300X v5에는 1.5TB HBM이 탑재되어 있으며 메모리 대역폭은 5.3TB/sec에 달한다. 마이크로소프트는 고속 대용량 메모리로 전력 소모와 비용을 절감하면서도 처리 속도를 높일 수 있다고 설명했다.

ND MI300X v5는 애저 환경에 최적화되어 있을 뿐 아니라 오픈AI 대규모 언어 모델 GPT-4 터보에도 최적화되어 있다. 더불어 마이크로소프트는 ND MI300X v5는 인기 있는 오픈AI 모델과 오픈소스 모델에 대해 뛰어난 비용 효율성을 제공한다며 오픈AI 이외의 모델에서도 높은 성능을 발휘한다고 강조했다.

또 ND MI300X v5는 AMD AI 개발 소프트웨어 ROCm을 지원하며 텐서플로나 파이토치 등 일반 기계학습 프레임워크 뿐 아니라 ONNX, DeepSpeed, MSCCL 등 마이크로소프트 AI 가속 라이브러리도 활용할 수 있다.

마이크로소프트 측은 MI300X를 기반으로 한 새로운 애저 VM은 마이크로소프트 코파일럿 서비스에 아주 좋은 결과를 가져왔다며 마이크로소프트의 AI 액셀러레이터에 대한 투자를 통해 코파일럿 사용자에게 지속적인 성능상 이점을 제공할 수 있게 됐다고 밝혔다. 또 ND MI300X v5는 마이크로소프트 365 챗, 워드 코파일럿, 팀스 미팅 코파일럿 등을 포함한 마이크로소프트 365 코파일럿을 뒷받침하는 주요 AI 인프라스트럭처 중 하나라고 밝혀 ND MI300X v5가 마이크로소프트 제품 개선에 도움이 되고 있다고 설명했다. 관련 내용은 이곳에서 확인할 수 있다.

마이크로소프트는 윈도와 메타 퀘스트(Meta Quest)를 연동해 창을 3D 공간에 배치하거나 3D 개체를 손으로 움직이는 등 작업을 가능케 하는 기능을 발표했다.

마이크로소프트는 창을 3D 공간에 배치하는 기능을 볼류메트릭 앱(Volumetric Apps)이라고 부르고 있다. PC 앞에서 메타 퀘스트를 착용하면 PC에서 열린 창이 눈앞 공간에 표시된다. 손을 내밀면 3D 개체가 나타난다. 이 3D 개체는 손으로 잡아 돌릴 수 있다. 이 3D 개체는 캐드 앱인 크레오(Creo)에서 편집 중인 개체. 화면 아래에는 메타퀘스트3으로 촬영(Captured on Meta Quest 3)이라고 적혀 있어 볼류메트릭 앱 개발이 이미 메타퀘스트3에서 실제 작동하는 단계까지 진전됐다는 걸 알 수 있다. 마우스나 키보드로 크레오를 조작하면 3D 개체 모습도 실시간으로 변화한다.

볼류메트릭 앱을 사용하면 창을 3D 공간에 배치해 디스플레이 면적 제한을 받지 않고 작업하면서 작업 중인 디바이스 모습을 3D 공간에서 확인할 수 있는 작업이 가능해진다. 마이크로소프트는 볼류메트릭 앱 테스트 개발자를 모집하고 있다.

마이크로소프트는 메타 퀘스트를 사용해 윈도 앱을 3D 공간으로 확장하려는 듯하다. 윈도 앱과 메타 퀘스트를 연결하는 API는 이미 공개되어 있다. 비전 프로가 애플 생태계에서 하려는 걸 실현하려는 모습이다. XR 분야 플랫폼 전쟁은 한층 더 격렬해질 전망이다. 관련 내용은 이곳에서 확인할 수 있다.

마이크로소프트는 또 웹 브라우저인 마이크로소프트 엣지(Microsoft Edge)에서 유튜브 같은 사이트에 올라온 동영상을 AI를 활용해 실시간으로 번역하고 더빙과 자막을 제공하는 기능을 발표했다.

엣지에서 동영상 실시간 번역에 대응하는 사이트는 유튜브(YouTube), 링크드인(LinkedIn), 코슬라(Coursera) 외에도 로이터 통신, CNBC, 블룸버그 같은 뉴스 사이트가 포함된다. 이들 사이트에서는 영어에서 독일어, 힌디어, 이탈리아어, 러시아어, 스페인어로 또는 스페인어에서 영어로의 실시간 번역이 가능하다.

번역을 이용하려면 동영상 재생 중 화면에 표시되는 a/a 버튼을 클릭한다. 재생 중인 동영상 언어와 번역을 원하는 언어를 선택한다. 번역을 제공할 오디오와 자막 중 하나 또는 둘 다에 체크하고 번역을 클릭하면 된다. 처리 시작 몇 초 만에 영어 음성이 스페인어 합성 음성으로 전환된다.

마이크로소프트는 이 기능에 대해 인터넷에는 엄청난 양의 동영상이 있지만 그 중 많은 부분이 언어 장벽 때문에 이해할 수 없거나 청각 장애로 인해 즐길 수 없는 문제가 있다며 실시간 번역 기능이 이런 과제를 해결할 수 있는 계기가 될 수 있다고 가능성을 제시했다. 또 향후 대응 언어와 동영상 플랫폼을 확대할 계획이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이번 행사에선 엑스박스나 PC 게임을 하는 도중 AI인 코파일럿(Copilot)에게 어떻게 조작해야 하냐, 지금 뭘 해야 하냐고 대화로 질문할 수 있게 됐다는 데모도 공개됐다.

예를 들어 마인크래프트를 하던 중 이걸 어떻게 만드는지 기억이 안 난다고 말하면 코파일럿이 갖고 있는 자료와 인벤토리를 확인해 부족한 재료를 알려준다. 마이크로소프트 플라이트 시뮬레이터에서는 가까운 공항을 안내해줘 연료가 부족해지는 상황에서도 안심할 수 있다.

하지만 게임성이 사라질 수도 있어 과도한 사용에는 주의가 필요하다. 코파일럿 조언 정확도도 의문이다. 게임사로부터 자료를 제공받는 것이 아니라면 어디에서 조작 방법이나 공략 정보를 배우게 될까.

한편 이번 행사에서 마이크로소프트는 코파일럿+PC를 발표한 바 있다. AI 성능을 크게 높였을 뿐 아니라 애플 M3 칩보다 더 빠르다고 광고하는 스냅드래곤 X 플러스와 엘리트를 탑재하고 있다.

마이크로소프트를 비롯해 여러 기업이 코파일럿+PC가 계속 발표하고 있지만 가격은 상당한 편이 될 수 있다. 그 중에서도 상위 모델인 스냅드래곤 X 엘리트 탑재 기종이라면 250만 원대 이상은 각오해야 할지도 모른다.

물론 상대적으로 더 저렴한 스냅드래곤 X 엘리트 탑재 최저가 모델이 있다. 윈도를 위한 스냅드래곤 개발 키트(Copilot+ PCs with Snapdragon Dev Kit)가 그것.

코파일럿+PC 전용 개발 키트로 CPU에는 당연히 스냅드래곤 X 엘리트를 탑재했다. 외형은 맥미니를 닮았다. 가격은 899달러. 다만 이 제품을 살 수 있는 건 개발자 뿐이다. 현재 사전 예약 중이며 6월 18일 출시 예정이다.

추천기사