테크레시피

메타, 영상 보고 학습 가능한 아키텍처 개발했다

메타가 영상 내 마스킹을 한 부분이나 누락 부분을 예측해 학습하는 아키텍처인 V-JEPA를 개발했다. 이 아키텍처를 통해 영상을 생성하는 건 불가능하지만 새로운 모델을 개발하는 방법에 쓸 수 있다고 한다.

V-JEPA는 영상에서 무슨 일이 일어나고 있는지 학습하고 예측하는 기법이다. 그 중에서도 객체 미세 상호 작용, 시간 경과에 따라 일어나는 자세한 상호작용을 구별할 수 있다. 예를 들어 누군가 펜을 놓고 있는지 펜을 줍고 있는지 펜을 놓는 척하고 있는지 등 동작이 마스킹되어 있어 영상 등에서 실제로 어떤 동작인지 추측하는 경우 V-JEPA는 기존 기법에 비해 뛰어나다고 한다.

V-JEPA에 근거한 학습 방법은 대부분을 마스킹한 영상을 보여주고 보이지 않는 부분을 채우도록 요구한다는 것. 이에 의해 기계학습 모델은 시공간적으로 변화하는 영상을 추측하는 방법을 학습한다.

마스킹 부분이나 누락 부분을 모두 채우려는 생성적 접근과 달리 V-JEPA는 예측 불가능한 정보를 버리는 유연성을 갖추고 있어 학습, 샘플 효율이 1.5배에서 6배 개선된다고 한다. 예를 들어 영상에 나무가 비치고 있어도 V-JEPA을 이용하면 개별 잎에 대한 섬세한 움직임은 예측하지 않고 잘라버릴 가능성이 있다. 이런 특징이 영상을 생성하는 학습 모델을 개발하는데 도움이 될 수 있다는 설명이다.

V-JEPA는 또 특정 작업에 특화된 모델이 아니라 범용성을 갖춘 동결평가라고 불리는 학습 방법을 자랑하는 첫 영상용 모델이기도 하다. 메타는 지금보다 긴 영상에서의 예측을 가능하게 하는 것과 현재 영상만을 대상으로 한 성능을 넓혀 멀티모달적 접근법 도입을 목표로 하고 있다. V-JEPA는 CC BY-NC 라이선스 하에 공개된다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사