이미지 생성 AI 스테이블 디퓨전(Stable Diffusion)을 개발하는 스태빌리티AI(Stability AI)가 10월 22일 스테이블 디퓨전 3.5 출시를 발표했다. 이 스테이블 디퓨전 3.5에는 여러 모델이 포함되어 있으며 모두 스태빌리티AI 커뮤니티 라이선스 하에서 상업적/비상업적 용도에 관계없이 무료로 사용할 수 있다.
스태빌리티AI는 지난 6월 스테이블 디퓨전 3 시리즈 첫 공개 출시인 스테이블 디퓨전 3 미디엄을 공개했지만 이 출시는 자사 기준이나 커뮤니티 기대를 충분히 만족시키지 못했다고 밝혔다. 이에 따라 커뮤니티 피드백을 받아들여 급한 수정 대신 비주얼 미디어 혁신이라는 미션을 진전시키는 버전을 개발하는 데 시간을 투자했다고 한다.
스태빌리티AI는 스테이블 디퓨전 3.5가 커스터마이징 성능, 효율적인 성능, 다양한 출력, 다채로운 스타일 면에서 우위를 보이며 텍스트 프롬프트 준수와 화질에서 최고 수준 성능을 유지하면서 시장에서 가장 커스터마이징이 가능하고 사용하기 쉬운 이미지 모델 중 하나가 됐다고 강조하고 있다.
그 중에서도 커스터마이징 성능을 우선시한 결과 동일한 프롬프트에서도 시드에 따라 큰 편차가 발생할 수 있으며 특정성이 없는 프롬프트에서는 출력 불확실성이 증가해 외관 수준에 편차가 생길 수 있다고 한다. 스태빌리티AI는 이는 의도적인 것이라고 설명했다.
스테이블 디퓨전 3.5에는 스테이블 디퓨전 3.5 라지(Large), 스테이블 디퓨전 3.5 라지 터보(Large Turbo), 스테이블 디퓨전 3.5 미디엄(Medium) 3가지 모델이 준비되어 있다.
스테이블 디퓨전 3.5 라지 파라미터 수는 80억이다. 스테이블 디퓨전 3 시리즈 중 가장 강력한 모델인 스테이블 디퓨전 3.5 라지는 뛰어난 품질과 신속한 적응성을 갖고 있으며 1메가픽셀 해상도 전문적인 사용 사례에 적합하다고 한다.
스테이블 디퓨전 3.5 라지 터보는 스테이블 디퓨전 3.5 라지 증류 버전으로 단 4단계로 고품질 이미지 생성이 가능하며 스테이블 디퓨전 3.5 라지보다 훨씬 빠른 게 특징이다.
스테이블 디퓨전 3.5 미디엄은 파라미터 수가 26억으로 스테이블 디퓨전 3 시리즈 기초 기술인 멀티모달 확산 트랜스포머(MMDiT) 아키텍처를 개선한 MMDiT-X 아키텍처가 채택됐다. 또 트레이닝 방법도 개선되어 커스터마이징 용이성과 화질을 모두 달성했다. 스테이블 디퓨전 3.5 미디엄은 소비자용 하드웨어에서 박스에서 꺼내자마자 사용할 수 있도록 설계됐다고 하며 0.25~2메가픽셀 해상도 이미지를 생성할 수 있다.
스테이블 디퓨전 3.5 시리즈 모델은 허깅페이스에서 공개되는 것 외에도 스태빌리티AI API를 비롯한 여러 AI 플랫폼에서 제공된다. 참고로 스테이블 디퓨전 3.5 라지와 스테이블 디퓨전 3.5 라지 터보는 이미 출시됐지만 스테이블 디퓨전 3.5 미디엄은 조금 늦춰진 10월 29일 출시 예정이다. 관련 내용은 이곳에서 확인할 수 있다.