테크레시피

알려지지 않은 인간 음성 시뮬레이션 기계史

최근에는 AI 기술과 합성음성 기술 진보에 따라 마치 인간 목소리와 같은 음성 시뮬레이션이 놀라운 발전을 이루고 있다. 하지만 18세기 유럽에서도 인간 목소리를 모방하는 기술과 기계들이 다수 개발됐다.

처음으로 인간 기능을 모방한 안드로이드가 탄생한 건 1738년 2월이었다. 엔지니어 자크 보캉송(Jacques de Vaucanson)이 플루트 연주하는 양치기를 모델로 제작해 파리 생제르맹 박람회에서 전시된 이 안드로이드는 기존 음악 오토마타와 달리 실제로 플루트를 연주할 수 있었다.

박람회 참가자 대다수는 내부에 자율적 기구가 달려 있어 안드로이드가 연주하는 척만 하는 게 분명하다고 회의적인 시선을 보냈지만 이 안드로이드는 폐쇄관 3세트와 입술, 혀, 패딩이 된 손가락을 탑재해 실제로 플루트를 연주할 수 있었고 당시 참관객을 놀라게 했다. 보캉송에 따르면 이 안드로이드는 기어 2개에 연결된 추벽에 의해 작동했다고 한다. 아래쪽 기어는 크랭크가 달린 차축을 회전시켜 폐쇄관 3세트에 동력을 공급하고 다른 3가지 강도 숨을 만들어냈다. 또 위쪽 기어는 캠이 달린 실린더를 회전시켜 안드로이드 손가락, 혀, 입술을 제어하는 레버를 작동시켰다.

플루트를 실제로 연주할 수 있는 기계를 설계하기 위해 보캉송은 인간 플루트 연주자에 대한 상세한 연구와 관찰을 수행했다. 그 결과 인간 플루트 연주자 기술을 안드로이드에 반영하는 데 성공했다. 또 보캉송은 1739년 왼손에 들고 있는 파이프로 미뉴엣 20개 등을 연주할 수 있는 기계와 어깨에 멘 북을 연주하는 기계를 개발했다.

18세기 중반이 되자 실험철학자와 기계학자는 발화는 호흡이나 소화와 같은 신체 기능이라고 가정하고 말하기는 본질적으로 유기적 과정이므로 기계로는 재현할 수 없다고 예언했다. 철학자이자 작가인 앙트완 코트 드 게블랭(Antoine Court de Gébelin)은 성대 진동, 근육 떨림, 공기가 입 측면에 미치는 영향 등 이런 현상은 생체 내에서만 일어날 수 있다고 지적했다. 반면 유물론자 쥘리앙 오프레 드 라 메트리(Julien Offray de La Mettrie)는 보캉송 기계를 바탕으로 말하는 기계 개발은 이제 불가능한 일이 아니라고 주장했다.

그리고 찰스 다윈의 할아버지인 이래즈머스 다윈(Erasmus Darwin)은 1771년 부드러운 가죽으로 된 입술과 코구멍용 밸브가 달린 나무 입을 고안했다고 발표했다. 이 기계에는 비단 리본으로 만든 인후가 있었고 엄마, 아빠, 맵, 팸 등 유아어를 말할 수 있었다.

또 프랑스 아베 미칼(Abbé Mical)은 1778년 인공 성대 2개가 달린 기계를 파리 과학아카데미에 기증했다. 이 기계에는 서로 다른 인형 머리 2개가 달려 있었고 왕은 유럽에 평화를 가져다줄 것이다, 평화는 왕에게 영광의 왕관을 씌워줄 것이다, 그리고 평화는 행복을 가져다줄 것이다, 오, 왕이시여. 당신 백성들의 사랑스러운 아버지여, 그들의 행복은 유럽에 당신 왕좌의 영광을 보여준다와 같이 루이 16세를 찬양하는 대화가 가능했다고 한다. 작가 루이 프티 드 바쇼몽(Louis Petit de Bachaumont)은 상당히 천천히 대화를 나눴다고 지적했다.

그래도 미칼의 기계를 조사한 학자는 인간을 모방해 만들어져 인간 발성 메커니즘에 매우 가깝다고 평가했다. 이후 미칼은 아카데미 데 사이앙스 지침을 받아 루이 16세를 알현했다고 한다.

인간 목소리를 시뮬레이션하는 기계는 토킹 헤드(Talking Heads)라고 불렸다. 오르간 파이프를 사용해 인공 성대를 구축한 크리스티안 고틀리프 크라첸슈타인(Christian Gottlieb Kratzenstein)이나 엔지니어 볼프강 폰 켐펠렌(Wolfgang von Kempelen) 등도 독자적인 토킹 헤드를 개발했다.

1800년대에 들어서면서 토킹 헤드 개발은 가시밭길을 걸었고 실제 음성기관이나 음성의 생리학적 과정을 재현하려 하기보다는 다른 수단으로 인간 음성을 재현하려는 경향이 강해졌다.

하지만 1840년대 후반에 독일계 이민자 조셉 파버(Joseph Faber)는 유포니아(Euphonia)라고 불리는 토킹 헤드를 개발했다. 유포니아에는 실제 같은 얼굴이 달려 있었고 폐쇄관과 성대, 혀, 가변 공명실, 고무 구개, 하악, 그리고 뺨으로 이뤄진 구강이 내장되어 있었다. 유포니아는 모든 모음과 자음을 발음할 수 있었고 레버에 연결된 17개의 건반을 조작해 음성에 운율을 부여할 수 있었다.

1844년 유포니아는 뉴욕시에서 처음 전시됐고 이후 필라델피아에서도 전시됐으며 1870년대 후반에는 파리에서 전시됐지만 큰 관심을 모으지 못하고 조용히 잊혀졌다.

20세기에 들어서면서 과학기술 발달로 기계적 음성 시뮬레이션에서 전기적 음성합성 기술 개발로 이행됐고 성대 진동, 기도, 유연한 혀와 입 등 발화 기관과 발화 과정 시뮬레이션은 과학의 주된 무대에서 사라지게 됐다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독