테크레시피

애플, 음성 분석해 심박수 추정하는 AI 모델 발표

애플이 기계학습 연구에 관한 최신 연구논문으로 청진을 통한 심박수 추정을 위한 파운데이션 모델 내 숨겨진 표현을 발표했다. 이 논문에서는 심박수 추정을 목적으로 훈련되지 않은 AI 모델로도 심박수를 정확하게 추정할 수 있는지 검증하고 있다. 이 연구를 통해 에어팟과 AI 모델을 활용하면 향후 전용 센서 없이도 심박수를 측정할 수 있게 될 가능성이 시사됐다.

연구팀은 일반 음성이나 대화로 훈련된 6가지 인기 높은 파운데이션 모델로 심음도에서 정확하게 심박수를 추정할 수 있는지 조사했다. 6개 파운데이션 모델 중 하나는 음성 문자 변환에 사용되는 위스퍼(Whisper)다.

조사에서는 각 AI 모델로 녹음된 음성이 아닌 20시간 분량 심음도 녹음을 처리했다. 이 심음 데이터는 공개된 심음 데이터세트(CirCor DigiScope Phonocardiogram) 일부다. 애플은 이 심음 데이터를 5초짜리 짧은 클립으로 분할해 각 AI 모델에 처리하도록 했다.

중요한 점은 이런 파운데이션 모델이 건강 데이터용으로 설계되지 않았음에도 불구하고 결과가 놀라울 정도로 안정적이었다는 것. 조사 대상이 된 파운데이션 모델 대부분이 기존 기계학습 모델에서 오랫동안 사용되어 온 수작업으로 구축된 음성 특징량에 의존하는 기존 방법과 동등한 정확도로 심박수를 추정하는데 성공했다.

또 애플이 사내에서 독자적으로 구축한 AI 모델인 CLAP(Contrastive Language-Audio Pretraining)는 조사 대상이 된 다른 파운데이션 모델 평균 성능을 넘어 종합적으로 최고 성능을 발휘했다고 한다.

애플은 이 결과에 대해 자사 CLAP 모델 음성 인코더로부터의 표현은 다양한 데이터 분할에서 가장 낮은 평균절대오차(MAE)를 달성했으며 표준 음향 특징으로 훈련된 베이스라인 모델을 넘어서는 성능을 보였다고 기술했다.

조사 대상이 된 각 AI 모델(Whisper, wav2vec2, wavLM)와 비교해 CLAP는 다른 AI 모델보다 우수한 성능(MAE: 1.88)을 기록했다. 또 조사에서는 AI 모델 매개변수 크기가 클수록 성능이 높다는 건 아니라는 점도 밝혀졌다. 기존 AI 모델 매개변수 크기가 큰 모델은 언어에 최적화되어 있어서인지 별로 유용하지 않은 심폐기능 정보를 인코딩해버리는 사례가 보고됐다.

이번 연구의 중요한 포인트 중 하나는 기존 신호처리와 차세대 AI를 결합해 더 신뢰성 높은 심박수 추정이 가능해진다는 점이다. 다시 말해 한쪽 방법이 제대로 기능하지 않을 경우에도 다른 쪽 방법으로 그 격차를 메울 가능성이 높다는 의미다.

연구팀은 향후 건강 관련 애플리케이션용으로 AI 모델 개선을 계속하고 저전력 기기에서도 동작 가능한 경량판을 개발하며 들을 가치가 있는 다른 신체 관련 소리도 탐구해 나갈 예정이라고 밝혔다.

이 연구는 임상적 주장이나 제품화 약속은 전혀 하지 않고 있다. 그럼에도 애플이 이런 AI 모델을 아이폰, 애플 워치, 에어팟에 탑재할 가능성은 충분히 생각해볼 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독