이미지 1장을 바탕으로 분위기를 바꾼 이미지를 만드는 기술은 2022년 시점 등장했지만 이 기술을 그대로 영상을 응용하려고 하면 프레임간 골칫거리이거나 반대로 프레임간 연결을 중시해 프레임 장당 품질이 떨어지는 문제가 발생하고 있다. 토큰플로(TokenFlow)는 와이츠만과학연구소 연구 그룹이 개발한 기법으로 영상 프레임 사이 일관성과 품질을 유지하면서 분위기만 바꿀 수 있다.
기존 프레임마다 분위기를 바꿔가는 수법에선 전후 프레임을 바탕으로 적절한 위치에 배치할 필요가 있는 요소 취급이 서툴렀지만 토큰플로 방법을 이용하면 원래 영상과 동등한 일관성을 유지하는 게 가능하다.
토큰플로에선 먼저 입력된 영상 프레임을 DDIM으로 반전시켜 토큰을 추출한다. 이어 최근 탐색을 이용해 프레임간 특징 대응 관계를 추출한다. 그리고 확산 모델 노이즈 제거 페이즈에 있어 노이즈 영상에서 키프레임을 샘플링해 확장 어텐션 블록으로 일괄 편집, 편집된 토큰을 작성한다. 여기에서 앞서 추출해둔 프레임간 특징 대응을 이용해 편집이 끝난 토큰을 영상 전체에 적응하는 것으로 일관성을 확보하고 있다.
깃허브 상에도 코드가 공개될 예정이지만 아직은 공개되어 있지 않다. 관련 내용은 이곳에서 확인할 수 있다.