테크레시피

“개인 사용에 최적화” 스테이블 디퓨전 3 미디엄 공개

이미지 생성 AI 스테이블 디퓨전을 개발한 스태빌리티AI(Stability AI)가 스테이블 디퓨전 3 미디엄(Stable Diffusion 3 Medium) 모델을 공개했다고 발표했다.

스테이블 디퓨전 3는 지난 2월 발표된 모델로 지정된 문자를 이미지 내에 부자연스럽지 않게 묘사하거나 다수 피사체를 고해상도로 묘사하는 등 특징으로 화제가 됐다.

스테이블 디퓨전 3 미디엄은 파라미터 수 20억 개인 비교적 작은 크기 모델로 개인용 시스템이나 기업용 GPU에서 작동시키기에 최적화되어 있다. 스태빌리티AI는 스테이블 디퓨전 3 미디엄이 지닌 특징으로 다음 몇 가지를 들었다. 첫째 전반적인 품질과 포토리얼리즘. 디테일과 색상, 조명 등에서 뛰어나며 포토리얼리스틱한 출력과 유연한 스타일의 고품질 출력이 가능하다. 16채널 VAE 등에 공을 들여 손이나 얼굴 리얼리티 등 다른 모델에서 흔한 문제점도 해결했다.

다음은 프롬프트 이해. 공간 추론, 구성 요소, 액션, 스타일 등이 포함된 긴 복잡한 프롬프트를 이해한다. 텍스트 인코더 3개를 모두 또는 조합해 사용해 성능과 효율성을 트레이드오프할 수 있다. 셋째 텍스트 생성. 디퓨전 트랜스포머(Diffusion Transformer) 아키텍처를 통해 철자, 커닝, 문자 조합, 스페이싱 오류를 줄이고 전례 없는 텍스트 품질을 실현할 수 있다는 설명이다.

넷째 리소스 효율성. 낮은 VRAM 풋프린트로 인해 표준 소비자용 GPU에서 성능 저하 없이 실행할 수 있다. 마지막으로 파인튜닝. 작은 데이터세트에서도 미묘한 디테일을 이해할 수 있어 커스텀마이징에 최적화되어 있다.

스태빌리티AI는 또 엔비디아와 AMD와의 협업을 발표했다. 엔비디아 RTX GPU와 텐서RT를 활용해 스테이블 디퓨전 3 미디엄을 비롯한 모든 스테이블 디퓨전 모델 성능이 강화됐다고 한다. 그 중에서도 텐서RT에 최적화된 버전은 기존 대비 성능이 50% 향상됐다고 한다.

또 AMD 제품인 APU, 소비자용 GPU, MI-300X 엔터프라이즈 GPU 등 다양한 AMD 디바이스에서 스테이블 디퓨전 3 미디엄 추론을 최적화했다는 설명이다.

스테이블 디퓨전 3 미디엄 모델 데이터는 온라인 AI 플랫폼 허깅페이스에 공개되어 있으며 현재 오픈 비상업 라이선스와 저비용 크리에이터 라이센스 하에서 이용할 수 있다.

또 스테이블 디퓨전 3 미디엄 오픈 릴리스와 동시에 API도 이용 가능해졌으며 챗봇인 스테이블 어시스턴트(Stable Assistant)와 디스코드에서 동작하는 스테이블 아티산(Stable Artisan)에서 활용할 수 있다. 두 서비스 모두 월정액 유료 가입이 필요하지만 3일간 무료 체험이 가능하다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독