신경망 이미지 압축 기술은 어느 정도 수준일까

이미지나 동영상 파일 크기를 압축하는 건 인터넷 트래픽 감소로 이어지기 때문에 엔지니어는 압축 기술 개선을 모색해왔다. 몇 차례 기술 개발을 거쳐 탄생한 신경망을 활용한 압축 방식은 2024년 현재 어디까지 진화했을까

신경망을 활용한 압축인 신경망 압축을 이해하려면 먼저 1992년부터 있었던 압축 포맷인 JPEG를 알아야 한다. JPEG 압축 방식은 세부 항목을 제거해 이미지 일부 품질을 낮춰 파일 크기를 줄인다. 구체적으로 이미지를 8×8픽셀 블록으로 나눈 뒤 질감의 세밀함을 주파수로 변환한다. 변환 이후 세밀한 고주파 영역을 제거하고 저주파 영역만 남겨 크기를 압축한다.

인간 눈은 섬세한 질감 변화보다는 거친 부분 변화를 훨씬 받아들이기 쉽기 때문에 JPEG 방식으로도 어색함 없이 압축이 가능하다. 이후 등장한 기술이 이미지 데이터를 주파수로 변환하는 방식 그러니까 이산 코사인 변환(Discrete Cosine Transform)을 파라미터화해 신경망에 계산을 맡기는 신경망 압축이다. 2018년 요하네스 볼레 등이 처음 공개한 이 방식은 JPEG보다 우수한 압축률을 보여주며 압축 방식 연구에 기대를 심어줬다.

신경망 압축에선 중요 데이터를 선별하는 가중치 부여 기계학습 모델 방식이 개발되어 있으며 학습된 모델에 의한 압축은 일부 코덱에서 기존보다 나은 벤치마크를 보이고 있다. 하지만 병목은 기계학습 계산 비용인데 이를 고려하면 아직 기존 코덱을 능가하진 못한다. 동영상 압축에선 기존 코덱과 신경망을 합친 하이브리드 방식이 나왔지만 기계학습 없는 최신 코덱이 더 강력하다고 한다.

이런 점에서 당분간은 가벼운 하이브리드 신경망 방식이 이미지/동영상 압축 향상에 최선일 수 있다. 하지만 장기적으로 단순하고 범용성 높은 신경망 하드웨어에서 동작하는 신경망 코덱이 주도권을 잡을 가능성이 높다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.