고정밀 이미지 생성 AI 발표한 엔비디아

엔비디아가 새로운 이미지 생성 AI인 eDiffi를 발표했다. 엔비디아 측은 eDiffi가 전 세계적으로 화제가 되고 있는 스테이블디퓨전이나 달리2 등 기존 이미지 생성 AI보다 입력 텍스트에 충실한 이미지를 생성할 수 있다고 주장하고 있다.

입력된 텍스트를 바탕으로 이미지를 생성하는 eDiffi에선 스테이블 디퓨전이나 달리2에서도 사용되는 확산 모델이라는 이미지 생성 프로세스를 사용하고 있다. 확산 모델은 노이즈만 이미지에서 제거하는 과정을 반복하고 궁극적으로 깨끗한 이미지를 생성하는 방식으로 이미지를 생성한다.

기존 이미지 생성 AI와 eDiffi가 다른 점은 일반 이미지 생성 AI는 단일 노이즈 제거 모델로 학습하는 반면 eDiffi는 노이즈 제거 단계마다 다른 디노이저로 학습하고 있다는 것이다. 이에 따라 기존 이미지 생성 AI보다 고정밀도로 이미지를 생성할 수 있다고 한다.

eDiffi에선 구글 자연 언어 처리 모델인 T5(Text-to-Text Transfer Transformer)와 이미지 분류 모델 CLIP를 결합해 이미지 스타일을 모방할 때에는 CLIP 이미지 인코더를 이용한다고 한다. T5만 이용하면 올바르지 않은 오브젝트가 포함되는 경우가 있고 CLIP만으론 세부사항이 누락되는 경우가 있지만 양자를 병용해 최고 퍼포먼스를 낼 수 있다는 걸 알게 됐다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.