지시 여부를 스마트 스피커가 알아서 판단하는 기술?

카네기멜론대학 연구팀이 오케이 구글이나 알렉사 등 웨이크 단어를 사용하지 않고 스마트 스피커가 자신에게 말을 건넬 수 있다는 걸 인식하는 기술을 개발했다.

스마트 스피커 등에 탑재되는 음성 지원 비서는 편리한 반면 매번 웨이크 단어를 써야 한다. 따라서 구글은 네스트 허브 초음파 센서를 이용해 웨이크 단어없이 조작할 수 있는 방법을 테스트하고 있다고 한다. 하지만 이는 센서가 없으면 사용하지 못하고 장치 근처에 있어야 한다.

카네기멜론대학 연구팀은 이런 불편을 해소하는 방법으로 소리 방향에 주목했다. 음성 주파수 성분에 따라 스마트 스피커에 직접 향한 음성인지 벽 등에 반응해 얻은 음성인지를 인식할 수 있는 기계학습 모델을 만들었다.

이를 사용해 웨이크 단어는 불필요하고 스마트 스피커 스스로 자신을 향한 지시인지 여부를 판단할 수 있다. 이 방법은 가벼운 소프트웨어 기반으로 실현할 수 있어 매번 클라우드에서 음성을 분석하지 않아도 장치 단독으로 사용할 수 있다고 한다.

지금은 90% 정확도로 인식하지만 사용상 문제점도 있다. 지시는 항상 장치를 향해서 말해야 한다. 뭔가 작업하는 동안에는 지시하기 어려울 수 있고 이는 스마트 스피커 용도를 감안하면 다소 부자연스러울 수 있다. 또 지금은 여러 명이 있는 레스토랑이나 파티 등에서는 사용할 수 없는 등 소음이 많은 환경이 과제라고 할 수 있다.

또 이 기술은 스마트 스피커를 웨이크 단어 없이 이용하기 위한 게 아니라 보청기에 탑재하면 착용자를 향한 음성만 선택적으로 증폭하는 것도 가능하다. 관련 내용은 이곳에서 확인할 수 있다.