테크레시피

구글이 발표한 고밀도 캡션 처리해주는 모델

구글 리서치(Google Research)가 동영상에 고밀도 캡션을 붙일 수 있는 시각 언어 모델인 Vid2Seq를 공개했다.

영상은 엔터테인먼트 뿐 아니라 교육과 커뮤니케이션 등 다양한 분야에 걸쳐 일상에서 점차 중요한 역할을 담당하고 있다. 다만 영상 중에선 다른 타이밍에 복수 이벤트가 발생하기 때문에 동영상 내용을 AI에 이해시키는 건 어렵다. 예를 들어 개썰매를 소개하는 영상의 경우 개가 썰매를 당긴다는 이벤트와 개를 썰매에 연결한다는 짧은 이벤트가 포함된다.

이런 동영상 내용은 AI에 이해시키기 위한 연구에서 한 수법으로 사용되는 건 고밀도 캡션이라는 방법이다. 구글리서치는 몇 분간 동영상 모든 이벤트를 시간에 맞춰 설명하며 짧은 동영상을 1장에 설명하는 단일 캡션이나 표준 동영상 캡션과 다르다고 설명한다. 고밀도 캡션은 시청각에 장애가 있는 사람이 동영상을 시청할 수 있게 하거나 동영상 챕터를 자동 생성하거나 대규모 데이터베이스 내 동영상에서의 모멘트 검색을 개선하는 등 폭넓은 용도로 이용을 기대할 수 있다. 하지만 기존 고밀도 캡션 기술은 고도로 전문화된 작업별 구성 요소를 필요로 하기 때문에 강력한 기초 모델에 통합하기가 어렵다. 수동으로 주석 처리된 데이터세트만 사용해 학습한 게 많기 때문에 입수가 곤란하고 확장성이 있는 솔루션이라고는 말할 수 없는 등 몇 가지 문제를 안고 있다고 한다.

여기에서 구글리서치가 개발한 게 Vid2Seq다. Vid2Seq는 언어 모델을 특별한 시간 토큰으로 보강해 동일 출력 시퀀스에서 이벤트 경계와 텍스트 캡션을 원활하게 에측할 수 있다. Vid2Seq는 고밀도 캡션을 시퀀스2시퀀스 문제로 공식화하고 특수 시간 토큰을 이용해 모델이 텍스트 의미 정보와 동영상 텍스트 근거가 있는 시간적 현지화 정보를 모두 포함하는 토큰을 원활하게 이해하고 생성할 수 있도록 하는 모델이다.

연구팀은 Vid2Seq를 사전 학습시키기 위해 라벨 없는 내레이션 동영상을 활용, 문제가 발생한 음성 문장을 의사 이벤트 경계로 재정의해 문자가 발생한 문장을 의사 이벤트 캡션으로 사용한다. 내레이션 영상 수백만 개로 사전 학습된 Vid2Seq는 고밀도 캡션 벤치마크에서도 높은 점수를 기록하고 있다 또 Vid2Seq는 고밀도 캡션 설정 몇 장, 동영상 단락 캡션 작업, 표준 비디오 캡션 작업으로 일반화할 수 있다.

Vid2Seq 코드는 깃허브에 올라와 있다. 참고로 Vid2Seq는 오는 6월 개최 예정인 VCPR 2023에서 자세한 사항이 발표될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사