이미지 생성 AI 스테이블 디퓨전(Stable Diffusion) 개발사로 알려진 스태빌리티AI(Stability AI)가 오픈소스 음악 생성 AI인 스테이블 오디오 오픈(Stable Audio Open)을 공개했다. 스테이블 오디오 오픈은 문장으로 지시하기만 하면 최대 47초짜리 음악을 생성할 수 있다.
스테이블 오디오 오픈은 텍스트에서 음악을 생성할 수 있는 AI, 스튜디오에서 녹음된 록 비트, 어쿠스틱 키트에서의 세션 드럼 같은 텍스트 지시에 따라 음악을 생성할 수 있다. 생성 가능한 음악은 최대 47초이며 짧은 오디오 샘플이나 사운드 효과 등 용도를 염두에 두고 있다.
We’re excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.
— Stability AI (@StabilityAI) June 5, 2024
This release marks a key milestone as we further open portions of our generative audio capabilities to… pic.twitter.com/KZlqJdTHiu
스태빌리티AI는 2024년 4월 상용 음악 생성 AI 스테이블 오디오 2.0을 출시했다. 스태빌리티AI는 스테이블 오디오 오픈과 스테이블 오디오 2.0 차이점에 대해 스테이블 오디오 2.0은 최대 3분 음악을 생성할 수 있고 음악 보간 기능과 다중 파트 음악 생성 등 고급 기능도 갖추고 있는 반면 스테이블 오디오 오픈은 전체 곡 생성에 최적화되어 있지 않으며 오디오 샘플, 사운드 이펙트, 프로덕션 등 용도에 적합하다고 설명했다.
또 스테이블 오디오 오픈은 저작권 문제를 피하기 위해 8,967건에 이르는 CC-BY 콘텐츠와 4,907건 CC0 콘텐츠로 학습했다고 한다. 스테이블 오디오 오픈 모델 데이터는 이곳에 공개되어 있다. 관련 내용은 여기에서 확인할 수 있다.