최근에는 텍스트에서 음악을 생성하는 AI 도구가 진보를 이루고 다양한 스타일로 고품질 음악을 생성할 수 있게 됐지만 기존 텍스트에 의한 생성에선 비트 위치나 음악 역학 등 시간에 따라 변화하는 속성을 제어하는 게 어려웠다는 것. 따라서 카네기멜론대학과 어도비리서치 연구팀이 여러 시간적 변화 제어를 가능하게 하는 음악 생성 모델인 뮤직 컨트롤넷(Music ControlNet)을 발표했다.
이전부터 텍스트를 바탕으로 음악을 생성하는 AI 모델은 다수 등장하고 있으며 메타는 텍스트에서 음악과 효과음을 생성하는 오픈소스 도구인 오디오크래프트(AudioCraft)도 발표하고 있다. 하지만 연구팀은 텍스트에 의한 제어는 주로 장르나 분위기, 템포 등 전반적인 음악 속성 조작에 적합하며 비트 시간적 배치나 음악 강약 변화 등 시간에 따라 변화하는 속성을 정확하게 제어하기에는 별로 적합하지 않다고 말한다.
따라서 연구팀은 오디오에 대해 여러 시간적 속성 제어를 제공하는 확산 모델을 기반으로 한 음악 생성 모델인 뮤직 컨트롤넷을 개발했다. 뮤직 컨트롤넷에선 텍스트로부터 음악을 생성하는 모델에 시간적 제어를 더하기 위해 컨트롤넷이라는 신경 네트워크와 유사한 접근을 채택하고 있다고 한다.
컨트롤넷은 사전 학습된 모델에 대해 윤곽선이나 깊이, 이미지 영역 구분 정보 등을 추가해 출력을 지원하는 기술로 이미지 생성 모델과 조합해 생성된 이미지 품질을 향상시킨다. 연구팀은 이를 이미지가 아니라 음악을 생성하는 모델에 적용한 것이다.
기존 텍스트로부터 음악을 생성하는 모델에선 단순히 파워풀록(Powerful rock)이라는 텍스트를 바탕으로 이런 음악을 AI가 생성하고 있었다. 뮤직 컨트롤넷은 그 밖에도 멜로디, 리듬, 역학 등 시간적 속성을 제어하는 능력을 갖춘 새로운 음악 생성 모델이다. 뮤직 컨트롤넷에선 텍스트 뿐 아니라 원하는 멜로디를 입력할 수 있다. 입력한 멜로디와 분노, 힙합 같은 텍스트를 조합해 멜로디를 유지한 채 힙합으로 마무리할 수 있다. 멜로디는 그대로 섹시, 일렉트로닉처럼 텍스트를 바꿀 수도 있다.
또 뮤직 컨트롤넷에선 음악 일부만을 제어하고 나머지를 AI에 맡길 수도 있다고 한다. 템포나 비트, BPM을 조정할 수도 있다. 음악 역할을 지정할 수도 있다. 관련 내용은 이곳에서 확인할 수 있다.