테크레시피

스태빌리티AI, ARM과 음악 생성 AI 기술 개발

이미지 생성 AI인 스테이블 디퓨전(Stable Diffusion)을 개발한 AI 기업인 스태빌리티AI(Stability AI)가 반도체 기업 Arm과 협력해 음악 생성 모델 스테이블 오디오 오픈(Stable Audio Open)을 Arm CPU에서 직접 실행할 수 있도록 최적화했다고 발표했다. Arm KleidiAI 라이브러리와 스태빌리티AI 첨단 기술을 결합해 스마트폰에서의 음악 생성 속도를 기존 수분에서 수초로 단축, 30배 빠르게 개선했다.

스테이블 오디오 오픈은 2024년 6월 공개된 오픈소스 음악 생성 AI 모델로 텍스트 입력만으로 최대 47초 길이 음악을 생성할 수 있다.

기존에는 스마트폰 CPU에서 스테이블 오디오 오픈을 직접 실행하면 음악 생성 한 번에 240초 이상이 소요되어 실용적이지 않았다. 이에 스태빌리티AI는 모델을 경량화하고 모바일 기기에서 원활하게 실행될 수 있도록 매개변수 수를 줄이는 최적화를 진행했다.

Arm은 또 Arm CPU에 특화된 마이크로커널이라는 고성능 루틴을 제공하는 KleidiAI 라이브러리를 XNNPack 및 ExecuTorch와 통합했다고 밝혔다. XNNPack은 모바일 기기에 최적화된 딥러닝 연산 라이브러리이며 ExecuTorch는 모바일 환경에서 모델 실행을 효율화하는 프레임워크다. Arm 측은 이를 통해 8비트 정수 행렬 연산 속도가 크게 향상됐다고 설명했다.

더불어 Armv9 아키텍처 기반 CPU 특성을 활용한 최적화도 진행됐다. Armv9은 머신러닝 워크로드를 위한 확장 명령어 세트를 제공하며 이를 활용해 더 효율적인 실행이 가능해졌다.

이런 최적화 기술이 결합된 결과 인터넷에 연결되지 않은 스마트폰 환경에서도 스테이블 오디오 오픈을 직접 실행할 수 있게 됐다. 동일한 Arm 기반 CPU에서 실행한 경우 음악 생성 시간이 기존 240초에서 8초 미만으로 단축되어 30배 속도 향상이 이뤄졌다. Arm 측은 그 중에서도 11초 길이 오디오 클립을 생성할 때 성능 향상이 두드러졌다고 강조했다.

스태빌리티AI 프렘 아카라주(Prem Akkaraju) CEO는 더 많은 전문가와 창작자, 기업이 생성형 AI를 제작 파이프라인에 도입할수록 자사 모델과 워크플로가 다양한 환경에서 활용될 수 있도록 구축하는 게 중요하다며 스태빌리티AI가 Arm과 파트너십을 맺은 것도 이런 이유 때문이라고 밝혔다. Arm은 서버부터 스마트폰까지 광범위한 생태계를 구축하고 있으며 모든 주요 프레임워크에서 KleidiAI 라이브러리를 소프트웨어 스택에 통합해 AI 모델을 가속하는 노력을 기울이고 있어 이번 협력은 당연한 선택이었다고 밝혔다.

한편 3월 3일부터 6일까지 스페인 바르셀로나에서 열리는 모바일 기기 박람회 MWC 2025 Arm 부스에선 Armv9 CPU를 탑재한 스마트폰에서 스테이블 오디오 오픈을 로컬 실행하는 시연이 진행했다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독

Most popular