구글 연구팀이 텍스트 만으로 이미지를 자동 생성하는 스테이블 디퓨전이나 달리처럼 입력한 텍스트대로 음악을 작곡하는 자동곡 AI인 뮤직LM(MusicLM)을 개발했다.
뮤직LM은 28만 시간 음악으로 이뤄진 데이터세트로 학습됐으며 인상적인 색소폰 솔로, 90년대 베를린 테크노 등 텍스트로 지시한대로 작곡하는 AI다. 재생 시간을 지정하고 복수 곡조를 정리해 한 곡에 연결할 수도 있다. 텍스트 뿐 아니라 이미지와 설명문으로 음악을 작곡하는 것도 가능하다.
악곡에는 보컬이나 코러스를 붙일 수도 있다. 다만 어디까지나 보컬이나 코러스처럼 들린다는 정도이며 가사는 간신히 영어로 들릴 정도로 전혀 의미가 없는 말이다. 구글 연구팀은 뮤직LM 같은 시스템이 가져올 많은 윤리적 과제로 인해 뮤직LM을 공개하지 않았다. 연구팀에 따르면 뮤직LM에선 데이터세트에 포함된 곡이 생성된 곡에 그대로 캡처되는 경향이 있다고 한다. 한 실험에선 시스템이 생성한 곡 1%가 데이터세트에서 직접 복사된 것으로 밝혀졌다고 한다. 연구팀은 사용 사례와 관련한 창조적 콘텐츠에 대한 잠재적 사기 이용 위험을 인식하고 있다고 밝히고 있다.
물론 뮤직LM 자체는 공개되지 않았지만 뮤직LM 평가에 사용된 데이터세트(MusicCaps)는 공개되어 있다. 관련 내용은 이곳에서 확인할 수 있다.