중국 무한대학 등 연구팀이 녹음된 음성을 풍경 이미지로 변환하는 데 성공했다고 발표했다. 실험에는 특별히 설계된 AI가 사용됐다.
무한대학 연구팀은 북미, 아시아, 유럽 도시에서 촬영된 유튜브 동영상과 음성을 이용해 10초 길이 음성과 정지 이미지 쌍을 만들었다. 이를 사용해 음성에서 고해상도 이미지를 생성할 수 있는 AI 모델을 설계했다. 그리고 AI에 100가지 음성을 들려주고 이미지를 생성하게 한 뒤 생성된 이미지와 실제 이미지를 비교해 얼마나 정확한지 인간과 컴퓨터에게 평가받았다. 컴퓨터 평가에서는 두 이미지 건물, 하늘, 식물에 대한 상대적 비율을 비교했다.
그 결과 생성된 이미지와 실제 이미지 사이에 하늘과 식물 비율에서 강한 상관관계가 있었고 건물 비율은 상대적으로 상관관계가 낮다는 걸 발견했다. 또 인간 참가자는 평균 80% 정확도로 실제 이미지와 유사한 이미지를 선택했다. 연구팀은 소리에서 장면을 그려내는 능력은 인간 고유 능력이며 환경과의 깊은 감각적 연결을 반영한다며 대규모 언어 모델에 의해 지원된 고급 AI 기술을 사용해 기계가 인간 감각에 가까운 걸 얻을 수 있다는 가능성을 입증했다고 말했다.
컴퓨터 분석 결과 생성된 이미지는 하늘, 식물, 건물의 비율을 근사하게 반영할 뿐만 아니라 건축 양식과 물체 간 거리도 유사하게 반영했으며 녹음이 맑은 날, 흐린 날 또는 밤에 이뤄졌는지와 같은 조명 조건도 정확하게 반영했다. 연구팀은 조명 조건은 교통 소음이나 야행성 곤충 울음소리 같은 특정 소리로부터 판단했을 수 있다고 지적했다.
연구팀은 이번 연구는 AI가 주관적 인간 경험을 이해할 수 있는 가능성을 시사한다며 인간이 눈을 감고 주변 소리에 귀를 기울이면 멀리서 들리는 자동차 소리나 나뭇잎의 부드러운 바스락거림을 도시나 숲의 풍경과 연결할 수 있다면서 이런 감각을 AI와 공유해 AI를 편안하고 아름다운 공간을 만드는 도시 설계에 활용할 수 있는 가능성이 있다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.