이미지 텔레폰(Image Telephone)은 채팅 AI에 이미지를 입력해 캡션을 달고 이를 이미지 생성 AI인 달리로 이미지화하고 다시 채팅AI에 입력하면서 어떻게 변화해나가는지 관찰할 수 있게 해준다.
이미지 텔레폰은 GPT-4와 달리3에서 변화가 어떻게 일어나는지 확인하기 위한 애플리케이션이다. 먼저 GPT-4에서 입력한 이미지 캡션을 생성한 다음 달리3에 캡션을 입력해 이미지를 생성한다. 이 작업을 여러 번 반복해 이미지가 어떻게 변화하는지 확인할 수 있도록 되어 있는 게 바로 이미지 텔레폰이다. 이미지 텔레폰은 모든 행정을 실시간으로 실행하는 건 아니며 사전에 실행한 내용을 호스팅하고 있다. 이유는 실행에는 시간과 비용이 들기 때문이라고 밝히고 있다.
이미지 텔레폰 화면에는 먼저 카페라테가 보인다. 화면을 스크롤하면 AI끼리 게임을 벌인 결과 출력 이미지가 어떻게 변화하는지 표시된다. 이미지 아래에 있는 숫자는 게임 루프가 몇 번이나 실행됐는지 나타내며 좌측 0은 게임 처음에 이용된 오리지널 이미지다. 게임 횟수가 늘면 주위 포트나 컵만 늘어난다.
카페라떼 외에 크리스마스 하우스, 폭포, 윈도XP, 골든게이트 브리지 등 다양한 샘플이 준비되어 있다. 또 풀다운 메뉴 아래에 있는 슬라이더를 좌우로 움직이면 0번째 게임 결과 출력된 이미지를 표시할 수 있다. 또 이미지 아래 캡션을 클릭하면 해당 이미지를 GPT-4에 입력했을 때 출력되는 캡션을 확인할 수 있다.
이미지 텔레폰은 깨끗하고 자체 문서화된 확장 가능한 데이터 파이프라인을 구축하기 위한 선언형 UI 프레임워크(Hamilton)를 이용해 구축했다. 관련 내용은 이곳에서 확인할 수 있다.