피아노 연주 영상만 보고 그대로 재현하는 AI

워싱턴대학 연구팀이 피아노 연주 모습을 건반 바로위에서 본 영상을 보고 사운드를 재현하는 AI를 개발했다.

음성 없이 영상을 보고 음색을 재현하려면 먼저 키보드 어떤 키가 어떤 음정을 재현하는지 기억해야 재현할 수 있다. 하지만 치는 강도나 터치 길이 등을 세밀하게 분석해 알 수 없으면 연주에 의한 표현력 재현 등은 할 수 없다. 아우데오(Audeo)라고 명명한 이 AI는 영상에서 이런 음정과 소리 길이, 강약 등을 뉘앙스에서 피아노 자체 음향 특성을 포함해 데이터화하고 디지털 신시사이저가 해석할 수 있는 형태로 변환해 연주를 재현한다.

목표는 아우데오가 아직 본 적 없는 영상을 재현해 원곡과 다르지 않은 품질 음악을 연주하도록 하는 것이다. 연구팀은 실제로 아우데오에 처음 보는 영상을 보여주고 해석, 연주를 시킨 결과 콧노래 등에서 원곡을 찾는 사운드하운드(SoundHound) 앱은 86% 인식률로 원곡을 확인했다. 원래 동영상 음성에서의 인식률은 93%였다. 다만 7% 차이에 대해선 연구를 더 진행하면 오차를 줄여나갈 것으로 기대하고 있다.

연구팀은 이번 연구를 통해 음악과 상호 작용하는 새로운 방법을 제공하기를 기대하고 있다. 예를 들어 미래에는 아우데오를 가상 피아노 카메라로 사람의 손 움직임을 찍는 것만으로 라이브 연주를 하게 할 수도 있다. 또 실제 피아노 위에 카메라를 놓고 피아노 교실 학생에게 연주 방법을 가르치는 새로운 방법에 아우데오가 도움이 될 수 있다. 줌 등 영상 통화를 통해 반대편 영상을 아우데오가 인식하고 연주한 소리를 바로 가까이에 스피커에 울리게 하면 코로나19 재난으로 직접 학생과 대면할 수 없어도 또 큰 소리를 내지 않고도 세세한 연주 테크닉을 가르치는 일도 가능할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.