엔비디아와 MIT, 칭화대 연구팀이 최대 4096×4096 해상도 이미지를 몇 초 만에 생성할 수 있는 이미지 생성 AI인 사나(Sana)를 발표했다.
개발팀에 따르면 사나는 기존 오토인코더가 이미지를 최대 8배 압축할 수 있었던 것과 달리 32배까지 압축 가능한 오토인코더를 훈련해 잠재적 토큰 수를 효과적으로 줄이면서 고효율 학습과 4K 해상도인 초고해상도 이미지 생성을 실현했다.
또 텍스트 인코더로서 언어 모델인 젬마(Gemma)를 디코더 전용으로 사용해 프롬프트 이해와 추론 능력을 강화했다. 기존 T5 모델과는 달리 젬마는 뛰어난 텍스트 이해력을 가지고 있어 훈련 불안정을 해소하고 이미지와 텍스트 간 정합성을 개선할 수 있다고 한다. 또 샘플링 단계를 줄이기 위해 Flow-DPM-Solver라는 시스템을 도입해 기존 Flow-Euler-Solver와 비교해 샘플링 단계를 28~50회에서 14~20회로 줄여 효율적인 캡션 라벨링 및 선택을 가능하게 했다.
이런 노력의 결과 사나는 플럭스(Flux)와 같은 최신 고성능 이미지 생성 AI와 동등한 경쟁력을 갖추면서도 100배 이상 속도로 이미지를 생성할 수 있다. 개발팀에 따르면 파라미터 수가 6억 개인 SANA-0.6B는 메모리 용량이 16GB인 GPU 탑재 노트북에서도 구동 가능하며 1024×1024 해상도 이미지를 생성하는 데 1초도 걸리지 않는다고 한다. 사나 이미지 생성 속도를 비교한 결과를 보면 파라미터 수가 16억 개인 SANA-1.6B는 1024×1024 해상도 이미지를 1.2초 만에, 4096×4096 해상도 이미지를 15.9초 만에 생성할 수 있다. 또 SANA-0.6B는 1024×1024 해상도 이미지를 0.9초 만에, 4096×4096 해상도 이미지를 단 9.6초 만에 생성할 수 있다.
사나와 다양한 이미지 생성 AI의 성능을 비교해도 사나 각 모델이 처리 속도 면에서 다른 이미지 생성 AI보다 높은 성능을 보였다는 보고가 있다. 참고로 사나 소스 코드는 곧 공개 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.