오픈AI, 프롬프트로 영상 생성하는 AI 소라 발표

이석원 기자

2024.02.17

오픈AI가 텍스트로 최대 1분짜리 영상을 생성할 수 있는 AI인 소라(Sora)를 발표했다. 소라는 여러 캐릭터, 특정 유형 모션, 피사체와 배경에 대한 정확한 세부 사항을 포함한 복잡한 장면을 물리 세계에 어떻게 존재하는지 이해한 뒤 영상을 생성할 수 있다고 한다.

미드저니나 스테이블디퓨전, 달리처럼 입력한 프롬프트에서 이미지를 생성하는 AI는 2022년경부터 등장했지만 더 진보한 것으로 프롬프트에서 영상을 생성하는 AI도 등장하고 있다. 하지만 이런 영상 생성 AI는 복잡한 상황에서 정확하게 물리적 시뮬레이션을 하기 어렵고 움직임에 대한 원인과 결과를 이해할 수 없기 때문에 모순된 영상이 생성되는 경우가 많다.

소라는 GPT 모델과 마찬가지로 트랜스포머 아키텍처가 사용된 노이즈 확산 모델로 물리 시뮤레이션을 실시해 영상을 생성하는 게 특징이다. 이 때문에 카레마가 회전하거나 피사체를 돌아다니는 등 다이내믹한 움직임 영상을 만들 수 있다. 오픈AI는 소라는 현실 세계를 이해하고 시뮬레이션을 할 수 있는 모델 기반으로 기능하고 AGI를 달성하기 위한 중요한 이정표가 될 것으로 생각한다고 밝혔다.

오픈AI는 소라를 언제 출시할지 밝히지 않았지만 소라를 사용할 수 있게 하기 전에 몇 가지 중요한 안전 조치를 취할 예정이라며 같은 분야 전문가로 이뤄진 레드팀과 협력해 모델을 적대적으로 테스트하고 있다고 밝혔다. 또 소라에 의해 영상이 생성됐는지 여부를 나타내는 검출 분류자 등을 설정하고 메타 데이터를 보면 AI에서 생성된 영상인지 여부를 판별할 수 있도록 한다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사