화웨이노아아크랩(Huawei Noah’s Ark Lab)과 다롄이공대, 허깅페이스 등 연구팀이 텍스트에서 이미지를 생성하는 프레임워크인 픽스아트-델타(PixArt-δ)를 발표했다.
픽스아트-델타는 이미 존재하는 1024×1024 픽셀 해상도 이미지를 빠르게 생성하는 모델인 픽스아트-알파(PixArt-α)를 대폭 개선한 것으로 1024×1024 픽셀 해상도를 갖는 고화질 이미지를 불과 2∼4단계로 픽스아트-알파 7배인 최단 0.5초로 생성할 수 있다.
픽스아트-알파 모델에는 이미지 생성 처리를 고속화하는 LCM(Latente Consistency Model)에 대응한 타입과 포즈, 심도 등 정보를 추가로 주는 것으로 생성형 이미지 품질을 높이는 컨트롤넷(ControlNet)에 대응한 타입 2개가 있었지만 델타 모델에선 컨트롤넷-트랜스포머(ControlNet-Transformer)라는 아키텍처를 채택해 각각 유효성을 유지하면서 2개를 통합했다고 한다.
델타 모델은 아직은 리포트가 공개된 것이며 데모 버전 등은 아직 공개되어 있지 않다. LCM 유형은 텍스트 프롬프트를 영어로 입력해 이미지를 생성한다. 긴 프롬프트라면 생성에 10초 이상 걸린다. 델타 버전은 생성에 걸리는 시간이 최단 0.5초로 알파 버전 몇 배 고속이다.
보고서에선 픽스아트-델타와 2∼8단계로 이미지를 생성할 수 있는 LCM SDXL을 비교한 이미지도 공개되어 있다. 학습 효율도 향상되고 있어 GPU 메모리 32GB 제약 내에서 학습 절차를 성공시키고 있어 이 효율성에 의해 컨슈머 레벨 GPU에서도 학습이 가능하다고 한다. 또 가중치가 많을수록 완성이 나빠진다는 문제가 기존 모델에서 보였지만 컨트롤넷-트랜스포머를 채택한 픽스아트-델타에선 이 문제를 개선하는데 성공했다고 한다. 관련 내용은 이곳에서 확인할 수 있다.