특정 목소리만 인식하는 스마트 스피커 로봇

여러 명이 목소리를 내는 공간에서 누가 뭘 말하고 있는지 구분하는 건 어렵다. 이는 인간 뿐 아니라 마이크도 마찬가지다. 1곳에 설치된 마이크로 다양한 영역에서 나온 목소리를 구별하는 건 쉽지 않다. 이 문제를 자동으로 전개하는 소형 로봇 마이크로 해결했다는 연구 결과가 보고됐다.

워싱턴대학 연구팀이 개발한 로봇은 스피커, 마이크, 배터리, 휠, 모터 등으로 만들었다. 크기는 30×26×30mm. 로봇은 베이스 스테이션에서 1대씩 룸바처럼 전개한다. 이 로봇은 박쥐가 발하는 고주파음을 내고 이 주파수와 센서를 이용해 장애물을 피하고 테이블에서 떨어지지 않고 분산한다.

이렇게 배치된 로봇은 영역마다 음성을 기록한다. 자신으로부터 1m 떨어진 위치에 마이크 A, 2m 떨어진 위치에 마이크B가 있다면 자신의 목소리는 먼저 마이크A에 도착하고 조금 늦게 마이크B에 도착한다. 한편 마이크B 근처에 있는 사람은 마이크B에 먼저 목소리가 닿는 구조다. 이처럼 어떤 마이크에 어떤 시기에 목소리가 닿았는지 조사하는 것으로 특정 장소에 있는 사람 목소리를 듣고 구별하거나 특정 영역을 끌 수도 있다고 한다.

연구팀은 사무실과 거실, 주방 3개 공간에서 3∼5명 그룹으로 대화하는 모습을 기록했다. 이 모든 환경에서 거의 이웃에서 말하는 사람 목소리를 구별할 수 있었다고 한다. 또 심층 학습 알고리즘 덕에 인접한 2명 목소리가 닮은 경우에도 구별하는 게 가능하다고 한다.

연구팀이 실시한 시나리오 중 하나는 멀리 떨어진 곳에 있는 화자 3명에게 동시에 소리를 내게 한다는 것이다. 이 시나리오에서 여러 마이크에서 얻은 음성을 처리하는 시간은 3초간 음성으로 평균 1.82초였다. 이는 라이브 스트리밍 같은 단방향 통신에 충분한 속도지만 화상 통화 같은 실시간 통신에는 조금 더 오래 느껴지는 속도다.

연구자에 따르면 이 기술이 진보하면서 스마트 스피커로 말하는 사람을 구별하기 위해 여러 마이크로 이뤄진 시스템이 도입될 가능성이 있다고 한다. 이렇게 되면 예를 들어 활성 구역에 잇는 소파에 앉아 있는 사람만 TV를 음성으로 조작할 수 있다.

이번 로봇은 테이블 하나 위에 분산됐지만 연구팀은 궁극적으론 테이블 위에 한정하지 않고 방안을 돌아다닐 수 있는 마이크로봇을 만들 예정이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.