여러 이미지에서 추출 요소 조합해주는 AI?

구글 딥마인드 연구팀이 이미지에서 특정 시각적 요소와 속성을 추출하고 AI를 사용해 여러 이미지에서 추출한 요소를 조합해 자연스러운 이미지 1장을 생성하는 기술인 토큰버스(TokenVerse)를 발표했다. 연구팀은 웹사이트에서 토큰버스를 사용해 어떤 이미지를 생성할 수 있는지 설명하고 있다.

토큰버스는 확산 모델과 트랜스포머를 결합한 DiT(Diffusion Transformer)를 기반으로 텍스트에서 이미지를 생성하는 모델을 활용해 입력한 텍스트에 따라 이미지에서 객체, 액세서리, 포즈, 조명 등 요소를 추출한다. 그리고 각 이미지에서 추출한 요소를 조합해 새로운 이미지를 생성할 수 있다.

추출할 수 있는 요소는 피사체와 소품뿐만 아니라 빛의 방향 등도 추출 가능하다. 화면을 덮는 안개 같은 특수 효과도 추출할 수 있는 것으로 보인다. 포즈만 추출해 다른 이미지에서 추출한 피사체에 지정한 포즈를 취하게 할 수도 있다. 물체 표면의 텍스처만 추출하는 것도 가능하다.

토큰버스를 설명하는 웹사이트에는 요소를 추출하는 이미지를 바꿔가며 실제로 생성되는 이미지가 변화하는 모습을 확인할 수 있는 데모도 마련되어 있다. 관련 내용은 이곳에서 확인할 수 있다.