메타가 4월 17일 영상 모델을 학습하는 새로운 기술인 DINOv2를 발표했다. 자가 교사 학습에 의해 영상을 고도로 이해하는 새로운 기술로 미래에는 간단한 지시나 프롬프트로 가상현실 세계를 구축할 수 있는 제너레이티브 AI가 등장할 것으로 기대되고 있다.
메타가 이번에 발표한 DINOv2는 메타가 이전에 선보인 DINO라는 화상 모델 발전형으로 동적인 영상을 받아 기존보다 고정밀도 세그멘테이션을 생성할 수 있다. 메타에 따르면 이전 시각적 작업에 대한 표준 접근 방식이던 이미지-텍스트 사전 학습 기술은 수동 작성된 캡션에 의존하기 때문에 텍스트에서 명시적으로 언급되어 있지 않은 정보가 무시되어 버린다는 것.
예를 들어 의자가 놓인 방에서 1개 다리 오크 재질 의자 라벨이 붙어 있었다면 그 방이 어떤 방인지 정보가 누락되어 버린다. 또 현미경으로 포착한 세포 영상에 올바르게 라벨을 붙일 수 있는 전문가가 많지 않아 인간에 의해 캡션을 붙여야 한다는 부분이 병목이 되는 경우도 생각할 수 있다.
하지만 DINOv2는 자가 교사 학습을 채택해 인간에 의한 캡션이 필요 없기 때문에 배경이나 인간 설명이 곤란한 데이터도 남을 것 없이 모델에 넣을 수 있다. 또 영상 속에 뭐가 있는지 상황에 따라 무엇을 어디에 배치해야 할지 이해하는 AI 구축에 도움이 되고 있다.
메타는 자연재생사업을 하는 비영리단체(WRI Restoration)와 공동으로 대륙 정도 면적 삼림을 수목 1개 단위로 맵핑하는데 성공했다고 한다. 메타가 공개한 메도 사이트에선 실제로 사진 심도 추정을 실시하게 하는 게 가능하다.
DINOv2를 이용하면 화상 채팅 디지털 배경 개선, 영상 콘텐츠 태그 지정, 새로운 타입 AR 콘텐츠와 비주얼 툴 등이 실현될 것으로 기대되고 있다. 나아가 AI가 생성하는 가상현실 세계 개발도 가능해지고 결국 대화형 가상 환경을 통째로 구축하는 것도 불가능하지 않다는 설명이다.
메타는 DINOv2를 오픈소스화하고 있으며 파이토치 코드로 깃허브에서 누구나 이용할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.