테크레시피

영상 통화로 수화 인식해 검출하는 방법 공개한 구글

구글 연구팀이 ECCV(European Conference on Computer Vision)에서 발표한 새로운 논문을 통해 적은 지연시간으로 영상 통화로 수화를 인식해 검출하는 방법을 공개했다. 물론 아직 수화 인식은 영상이 지연되는 등 실용적인 상태는 아니다. 연구팀 목표는 가볍고 안정적으로 동작하게 하는 것이다.

수화 감지 시스템은 먼저 포즈넷(PoseNet)이라는 모델을 이용해 동영상을 재생하고 프레임마다 몸과 팔다리 위치를 추정한다. 기본 막대 모양으로 단순화한 시각 정보는 포즈 데이터에 따라 훈련된 모델에서 라이브 영상에 수화처럼 보이는 움직임과 비교한다.

이 간단한 과정에선 상대방이 수화를 하는지 예착하는 정확도는 이미 80% 정도이며 더 최적화하면 91.5% 정확도가 된다. 대부분 통화에서 검색 상대방이 얘기하는지 기침을 하고 있는지 알 수 있을 정도를 감안하면 상당한 수준이라고 할 수 있다.

사람이 수화를 한다는 신호를 추가하지 않고 작동하지만 구체적으론 청각 범위 밖이지만 컴퓨터 오디오 시스템에 의해 감지할 수 있는 20kHz 톤을 만든다. 이 신호는 사람이 수화를 할 때마다 생성된 음성 검출 알고리즘에 사람이 큰 소리로 말하고 있다고 인식하게 된다. 기존 영상 통화 시스템과 이를 이용한 응용 프로그램에 통합할 수 없는 이유는 없어 보인다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사