음성만으로 얼굴 이미지 만드는 AI?

화자의 목소리만으로도 성별이나 연령 때론 출신지 같은 정보를 확인할 수 있다. 스피치투페이스(Speech2Face)는 사람의 목소리와 말투로 말하는 사람의 얼굴을 예상해 이미지를 생성해주는 AI다. 음성에서 인간의 신체적 특징을 도출하기 위해 개발되고 있는 것.

스피치투페이스는 유튜브에 올라온 영상을 통해 화자의 나이와 성별, 인종, 말투와 소리 관계에 대해 기계학습을 하고 목소리에서 말하는 사람의 얼굴 이미지를 예상해 생성한다. 학습에 이용한 동영상은 수백만 클립에 이르며 이를 통해 스피치투페이스는 10만 명 이상 목소리와 얼굴을 학습했다고 한다.

스피치투페이스가 실제로 목소리에서 생성한 얼굴 이미지를 실제 얼굴과 비교하면 세세한 건 다르지만 인종이나 성별, 연령 등은 비슷하다고 한다. 또 스피치투페이스가 만들어내는 얼굴 이미지는 모두 무표정하게 된다.

연구에 따르면 스피치투페이스로 만든 얼굴 이미지는 나이와 인종, 성별을 대부분 맞추며 입력하는 음성이 길수록 정확도는 오르지만 완벽하기는 어렵다고 한다. 같은 사람이라도 중국어를 말하는 음성과 영어를 말하는 음성에서 각각 얼굴 이미지를 만들면 영어를 하면 백인 이미지, 중국어를 하면 아시아인 이미지를 생성한다. 또 저음의 경우 남성, 고음은 여성 이미지를 생성하는 경향도 있다. 관련 내용은 이곳에서 확인할 수 있다.