
구글 딥마인드 연구팀이 이미지에서 특정 시각적 요소와 속성을 추출하고 AI를 사용해 여러 이미지에서 추출한 요소를 조합해 자연스러운 이미지 1장을 생성하는 기술인 토큰버스(TokenVerse)를 발표했다. 연구팀은 웹사이트에서 토큰버스를 사용해 어떤 이미지를 생성할 수 있는지 설명하고 있다.
토큰버스는 확산 모델과 트랜스포머를 결합한 DiT(Diffusion Transformer)를 기반으로 텍스트에서 이미지를 생성하는 모델을 활용해 입력한 텍스트에 따라 이미지에서 객체, 액세서리, 포즈, 조명 등 요소를 추출한다. 그리고 각 이미지에서 추출한 요소를 조합해 새로운 이미지를 생성할 수 있다.
추출할 수 있는 요소는 피사체와 소품뿐만 아니라 빛의 방향 등도 추출 가능하다. 화면을 덮는 안개 같은 특수 효과도 추출할 수 있는 것으로 보인다. 포즈만 추출해 다른 이미지에서 추출한 피사체에 지정한 포즈를 취하게 할 수도 있다. 물체 표면의 텍스처만 추출하는 것도 가능하다.
토큰버스를 설명하는 웹사이트에는 요소를 추출하는 이미지를 바꿔가며 실제로 생성되는 이미지가 변화하는 모습을 확인할 수 있는 데모도 마련되어 있다. 관련 내용은 이곳에서 확인할 수 있다.