이미지 생성 AI 모델인 스테이블 디퓨전(Stable Diffusion) 등에서 사용되는 생성 AI 모델은 확산 모델이라는 접근 방식을 채택하고 있다. 이런 확산 모델을 대체하고 확산 처리를 단순화해 고속화할 수 있는 새로운 접근 방식인 sCM을 오픈AI가 발표했다. 기존에는 수십에서 수백 단계 샘플링 스텝이 필요했지만 sCM을 사용하면 단 2단계로 처리할 수 있다고 한다.
확산 모델은 데이터에 노이즈를 추가하고 제거하는 과정을 반복하면서 학습한다. 이때의 노이즈 제거 횟수를 샘플링 스텝이라고 부른다. 보통 샘플링 스텝을 적절히 늘리면 생성 결과 품질이 향상되지만 그만큼 처리 시간이 길어진다. 이런 문제를 해결하기 위해 AI 연구자는 샘플링 스텝을 줄이면서도 높은 품질을 유지할 수 있는 기술을 개발해 왔으나 오픈AI는 기존 접근 방식은 높은 계산 비용, 복잡한 훈련 과정, 샘플 품질 저하 등 한계를 가지고 있다고 지적했다.
이에 오픈AI는 기존 확산 모델을 대체할 수 있는 고속 대안으로 알려진 일관성 모델(Consistency Models) 연구를 발전시켜 모델 단순화와 안정성 향상을 꾀했다. 그 결과 많은 노이즈 제거 단계를 거쳐 점진적으로 샘플을 생성하는 기존 확산 모델과 달리 노이즈를 바로 깨끗한 샘플로 변환할 수 있는 일관성 모델에 대한 새로운 접근 방식인 sCM을 완성했다.
sCM은 512×512 해상도 이미지넷(ImageNet)에서 연속 시간 일관성 모델을 학습할 때 15억 개 파라미터까지 확장할 수 있다. 예를 들어 15억 개 파라미터를 갖춘 sCM 최대 모델은 추론 최적화 없이 엔비디아 A100 GPU 1개로 단 0.11초 만에 샘플 하나를 생성할 수 있다. 시스템을 최적화하면 더 빠르게 처리할 수 있어 이미지, 음성, 동영상 등 다양한 영역에서 실시간 생성이 가능해질 것이라고 오픈AI는 설명하고 있다.
실제 이미지와 생성된 이미지를 비교해 생성 AI가 만든 이미지 품질을 평가하는 지표(Fréchet inception distance)에서도 유효 샘플링 계산량 10% 미만만 사용하면서 기존 방법에 필적하는 품질 샘플을 생성하는 게 확인됐다고 한다.
오픈AI는 자사는 추론 속도와 샘플 품질을 모두 개선한 더 나은 생성 모델 개발을 위해 계속 노력하고 있다며 이런 진보가 다양한 분야에서 실시간으로 고품질 생성 AI의 새로운 가능성을 열 수 있을 것이라고 믿는다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.