테크레시피

메타, AI 이용한 음성 압축 연구중

메타 AI 연구팀이 인터넷에서 음성 압축을 AI를 이용해 기존 압축보다 더 압축이 가능하다는 연구를 발표했다. AI를 이용한 압축으로 풍부한 멀티미디어 체험을 즐길 수 있다는 설명이다.

이제 인터넷에서 압축은 필수 요소이며 압축을 해야 고품질 이미지와 스트리밍이 가능하다. 하지만 현재 압축 기술에는 고속 인터넷 연결과 충분한 저장 용량이 필요하며 고품질로 중단 없는 인터넷은 일부만 경험할 수 있다.

따라서 연구팀은 AI를 이용해 오디오 데이터를 압축하는 걸 연구하고 있다. AI를 이용한 접근에선 실시간으로 음성을 압축해 첨단 사이즈 축소를 실현할 수 있다는 것. 이번 연구에선 64kbps MP3에 비해 10배 압축률을 CD 품질인 48kHz 샘플링 스테레오 음성으로 품질을 떨어뜨리지 않고 실용화하고 있다.

이번에 연구팀이 학습시켜 만든 인코덱(Encodec)이라고 불리는 AI를 활용한 압축은 3개 부분으로 이뤄져 있다. 먼저 비압축 데이터를 기존보다 고차원 저프레임 표현으로 변환하는 인코더, 다음으로 인코더로부터 받은 데이터를 목표로 하는 사이즈로 압축하는 양자화기. 인코덱에선 기존 신호를 재구성하기 위해 가장 중요한 정보를 유지하면서 원하는 크기로 출력하도록 학습되고 있다고 한다. 마지막으로 디코더. 압축된 신호를 원래 신호에 가까운 파형으로 되돌리는 것이다. 인코덱에선 인간이 인식할 수 없는 변화를 식별하고 낮은 비트레이트로 비가역 압축을 가능하게 하고 있다.

인코덱을 이용한 음성 압축을 통해 1.5kbps에서 12kbps라는 저 비트레이트 음성 압축에서 높은 결과를 달성해 싱글 CPU 코어에서 실시간 인코딩과 디코딩을 가능하게 했다고 한다. 앞으로 품질을 크게 열화시키지 않고 음성을 더 작은 파일 크기로 압축해 더 공간적인 음성 압축에 대해서도 검토할 예정이라고 한다. 또 영상 분야에서도 AI를 이용한 압축 연구에 임할 예정이며 연구 결과 인터넷 접속 속도에 관계없이 전 세계인이 더 풍부하고 빠른 온라인 경험을 할 가능성이 있다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독