최대 47초…무료 사용 가능한 음악 생성형 AI

이미지 생성 AI 스테이블 디퓨전(Stable Diffusion) 개발사로 알려진 스태빌리티AI(Stability AI)가 오픈소스 음악 생성 AI인 스테이블 오디오 오픈(Stable Audio Open)을 공개했다. 스테이블 오디오 오픈은 문장으로 지시하기만 하면 최대 47초짜리 음악을 생성할 수 있다.

스테이블 오디오 오픈은 텍스트에서 음악을 생성할 수 있는 AI, 스튜디오에서 녹음된 록 비트, 어쿠스틱 키트에서의 세션 드럼 같은 텍스트 지시에 따라 음악을 생성할 수 있다. 생성 가능한 음악은 최대 47초이며 짧은 오디오 샘플이나 사운드 효과 등 용도를 염두에 두고 있다.

We’re excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.

This release marks a key milestone as we further open portions of our generative audio capabilities to… pic.twitter.com/KZlqJdTHiu
— Stability AI (@StabilityAI) June 5, 2024

스태빌리티AI는 2024년 4월 상용 음악 생성 AI 스테이블 오디오 2.0을 출시했다. 스태빌리티AI는 스테이블 오디오 오픈과 스테이블 오디오 2.0 차이점에 대해 스테이블 오디오 2.0은 최대 3분 음악을 생성할 수 있고 음악 보간 기능과 다중 파트 음악 생성 등 고급 기능도 갖추고 있는 반면 스테이블 오디오 오픈은 전체 곡 생성에 최적화되어 있지 않으며 오디오 샘플, 사운드 이펙트, 프로덕션 등 용도에 적합하다고 설명했다.

또 스테이블 오디오 오픈은 저작권 문제를 피하기 위해 8,967건에 이르는 CC-BY 콘텐츠와 4,907건 CC0 콘텐츠로 학습했다고 한다. 스테이블 오디오 오픈 모델 데이터는 이곳에 공개되어 있다. 관련 내용은 여기에서 확인할 수 있다.