테크레시피

문자 반영도 가능한 이미지 생성 AI

프롬프트로부터 이미지를 생성하는 AI인 스테이블 디퓨전을 개발한 스태빌리티AI가 새로운 이미지 생성 AI인 딥플로이드IF(DeepFloyd IF)를 발표했다. 이미지에 올바른 문자를 반영하는 처리 등 성능이 향상됐다.

입력된 프롬프트는 ‘frozen T5-XXL’ 언어 모델을 통해 질적 텍스트 표현으로 변환되며 IF-I 400M, IF-I 900M, IF-I 4.3B 3가지 기본 모델로 64×64 이미지로 변환된다. 2번째 단계에선 IF-II 450M 또는 IF-II 1.2B에서 학습한 Efficient U-Net을 기본 모델 출력에 적용한다. 이 가운데 하나는 64×64 이미지를 256×256 이미지로 업스케일링한다. 3번째 단계에선 2번째 단계에서 적용되지 않은 모델이 적용되어 1024×1024 선명한 이미지가 생성된다.

딥플로이드IF는 LAION-A 데이터세트로 학습됐다. LAION-A는 LAION-5B 데이터세트에서 유사 해시를 기반으로 중복 제거, 원래 데이터세트에 대한 기타 수정을 통해 얻은 것으로 딥플로이드 사용자 지정 필터를 사용해 워터마크, NSFW, 기타 부적절한 콘텐츠가 제거됐다.

딥플로이드IF는 다른 모델이 서투른 문자 반영이 가능하며 이미지 내에 문자를 올바르게 반영시킬 수 있다. 노래 가사를 딥플로이드IF로 생성해 이미지에 반영하고 영상화할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사