오픈AI가 제공하는 대화형 AI인 챗GPT는 고성능으로 재판에서 사용되거나 문장 쓰기 등에 활용되는 등 화제다. 하지만 챗GPT는 대화용으로 개발된 AI이며 이미지 생성 기능은 탑재하고 있지 않다. 이런 가운데 마이크로소프트 리서치 아시아 연구팀이 챗GPT에 이미지 생성 기능을 탑재한 비주얼 챗GPT(Visual ChatGPT)를 발표했다.
스테이블 디퓨전 같은 이미지 생성 AI에선 문장이나 참고 이미지를 프롬프트로 입력해 원하는 이미지를 생성할 수 있다. 하지만 이미지 생성 AI를 다루려면 모델 데이터, 해상도, 샘플링 횟수 등 다양한 요소를 적절하게 설정할 필요가 있으며 복잡한 프롬프트 구축 등 번거로운 작업을 수행해야 한다.
따라서 연구팀은 기존 챗GPT를 기반으로 한 비주얼 챗GPT라고 불리는 대화형 AI를 개발했다. 비주얼 챗GPT는 입력 텍스트나 프롬프트를 통해 상호 작용해 이미지를 생성할 수 있다.
연구팀은 챗GPT에 스테이블 디퓨전이나 인스트럭트픽스2픽스(InstructPix2Pix) 같은 VFM을 추가했다. 또 챗GPT와 VFM 기능간 격차를 메우기 위해 입력과 출력 형식을 지정하고 VFM별 기능에 대해 챗GPT에 통지, 다양한 VGM 사용 내역과 우선순위 등을 참고로 이미지 처리 PNG 이미지와 깊이 이미지와 같은 다양한 시각 정보를 언어 형식으로 변환해 챗GPT 처리를 지원하는 걸 프롬프트 관리자를 도입했다.
비주얼 챗GPT 아키텍처 개요는 Q1으로 표시된 소파 이미지를 Q2에선 이미지 중 소파를 책상으로 바꾸고 더 수채화풍으로 하라는 질문을 한다. 사용자 쿼리를 받으면 챗GPT 시스템 설명과 대화 기록을 포함해 다양한 VFM 중 선택한 도구를 사용하기 위한 프롬프트를 만들고 챗GPT에 입력한다.
비주얼 챗GPT 같은 도구를 사용하면 텍스트에서 이미지를 생성할 때 장벽을 줄이고 다양한 AI 도구에 상호 운용성을 추가할 수 있다고 한다. 연구팀은 VFM 실패나 프롬프트 불규칙성에 의해 만족스러운 생성 결과를 초래하지 않을 가능성이 우려되고 있다며 생성 이미지가 인간 의도와 일치하는 단일 자체 수정 모듈이 필요하며 또 이 모듈을 도입하면 생성 시간이 늘어날 수 있어 앞으로도 연구할 예정이라고 한다.
연구팀이 개발한 비주얼 챗GPT 소스 코드는 깃허브에 공개되어 있다. 비주얼 챗GPT를 이용하려면 챗GPT API가 필요하다. 관련 내용은 이곳에서 확인할 수 있다.