구글 AI 연구팀인 구글AI(Google AI)가 저해상도 이미지에 노이즈를 추가하고 순수한 노이즈가 될 때까지 가공하고 여기에서 고해상도 이미지를 생성하는 확산 모델(diffusion model) 기법을 개선하는 새로운 접근 방법을 발표했다. 화질 나쁜 저해상도 이미지에서 고해상도 이미지를 생성하는 기술은 오래된 사진 복원에서 의료 영상 개선까지 폭넓은 용도를 상정된 기계학습 활약이 기대되는 작업 중 하나다.
보통 저해상도 이미지에서 고해상도 이미지를 복원하는 작업에는 적대적 생성 네트워크 GANs, VAE, 자기회귀모델 등 생산 모델이 사용되고 있다. 하지만 GANs은 생성하는 이미지 대부분이 복제되어 버리는 붕괴가 발생할 수 있는 것 외에 자기회귀모델은 합성 속도가 느리다는 등 문제점이 있어 생성 모델에는 단점이 있다.
한편 구글AI가 2015년 발표한 확산 모델이라는 생성 모델은 학습 안정성과 생성 이미지, 음성 품질이 높기 때문에 최근 검토되고 있다고 한다. 새롭게 구글AI는 SR3(Super-Resolution via Repeated Refinements)과 CDM(Cascaded Diffusion Models)이라는 2가지 새로운 확산 모델 접근법을 사용해 확산 모델 이미지 합성 품질을 향상시키는데 성공했다고 밝히고 있다.
SR3은 먼저 저해상도 이미지에 가우스 잡음을 서서해 추가해 순수한 노이즈 이미지가 될 때까지 손상시켰다. 이후 신경망으로 이미지 손상 과정을 반전시켜 노이즈를 제거하고 당초 해상도를 넘는 고해상도 이미지를 생성하는 구조다.
실제로 연구팀이 원래 이미지와 저해상도 이미지에서 다양한 방법으로 생성한 이미지를 보여주고 어떤 쪽이 원본 이미지인지 판별하도록 했다. SR3은 FSRGAN(Face Super-Resolution Generative Adversarial Network)과 PULSE, 자기회귀생성모델(Regression) 수법과 비교해 16×16픽셀 이미지를 128×128픽셀로 한 경우 혼란 비율은 47.4%이다.
또 구글AI는 큰 이미지 인식 데이터세트인 이미지넷에서 학습시킨 클래스 조건부 확산 모델인 CDM도 발표하고 있다. 이미지넷에는 다양한 데이터세트가 포함되어 있기 때문에 생성 이미지가 원본 이미지에서 동떨어진 게 될 가능성이 있지만 CDM은 라벨 정보와 함께 생성 모델을 여러 공간 해상도로 서서히 업스케일링해 고품질 이미지를 생성할 수 있다는 것이다. 관련 내용은 이곳에서 확인할 수 있다.