테크레시피

NeRF는 딥페이크 진보의 열쇠인가

딥페이크(Deepfake)는 AI를 이용해 가짜 인물 이미지나 동영상을 만드는 기술로 유명인 가짜 영상과 정치인 가짜 연설이 나도는 등 다양한 분야에서 논란을 일으키고 있다. 이런 딥페이크가 직면한 과제와 극복 가능성을 갖고 있는 NeRF(Neural Radiance Fields)라는 기술이 주목받고 있다.

연구에 따르면 대다수는 AI가 만들어낸 얼굴과 진짜 얼굴을 구별하지 못하고 심지어 진짜 얼굴보다 AI가 만든 얼굴이 신뢰도가 더 높다는 결과가 보고되기도 했다. AI를 이용한 기술에는 여러 가지가 있지만 딥페이크는 실제 유명인이나 정치가를 가짜 이미지나 영상에 등장시키는 게 가능하기 때문에 다양한 분야에서 악용이 위험시되고 있다. 이런 딥페이크에 대한 화제 대부분은 2017년 등장한 DFL(DeepFaceLab), 페이스스왑(FaceSwap))이라는 2가지 오픈소스 패키지를 언급하고 있지만 이런 프로젝트 근간은 딥페이크(deepfakes)라고 자칭하는 수수께끼 같은 개발자가 2017년 깃허브에 공개한 코드에서 그다지 벗어나지 않았다고 한다.

물론 DFL과 페이스스왑은 광범위한 사용자 기반과 개발자 커뮤니티를 갖고 있기 때문에 학습 모델에 의해 큰 이미지를 사용할 수 있게 되거나 장애물을 자동 제거하는 구조가 개발되는 등 개선이 이뤄져 왔다. 하지만 지난 3년 가량 보였던 딥페이크 품질 향상은 근간 쇄신보다는 데이터 수집이나 학습 기법 개선에 의한 게 주가 됐다고 한다.

현재 딥페이크 소프트웨어 학습은 단일 GPU에 의한 게 보통이며 대규모 데이터를 학습하는 게 곤란하다는 문제가 있다. 이런 병목 현상은 상당히 짧은 영상을 만드는데 오랜 시간이 걸리는 것 외에도 512×512픽셀 같은 비교적 큰 이미지 학습에 사용하는 이미지 매수가 제한되는 등 일반화를 막는 문제가 발생한다. 모델 최적 일반화를 할 수 없는 경우 본질적인 데이터 특징을 추출할 수 없거나 원본 데이터에 따른 것 밖에 만들 수 없을 수 있다.

이런 딥페이크 문제를 극복할 가능성이 있다고 보이는 게 2020년 등장한 NeRF라는 기술이다. NeRF는 복수 시점에서 촬영한 화상을 신경망 내에서 조합해 물체나 환경 3D 모델을 생성하는 것으로 형상과 질감, 투명도, 조명 등을 인식해 화상 내 누락 부분을 합성 또는 추정할 수 있다. 그 중에서도 엔비디아가 2022년 발표한 인스턴트 NeRF(Instant NeRF)라는 기술은 불과 사진 몇 장으로부터 복잡한 3D 모델을 합성하는 게 가능해 과거에는 몇 시간에서 수십 시간까지 걸렸던 학습 시간을 불과 몇 초로 끝낼 수 있다.

인스턴트 NeRF가 뛰어나고 빠른 학습 속도를 달성한 건 콘텐츠 생성에 직접 영향을 미치지 않는 정보를 파괴하는 능력 때문이다. 다시 말해 인스턴트 NeRF는 최종 3D 이미지에서 잘린 정보를 처음부터 고려하지 않고 불필요한 처리를 최대한 피해 학습 속도를 향상시키고 있다는 것. 이 메커니즘은 캐시 유연성과 능력을 향상시키기 때문에 인터페이스 응답성이 향상된다는 이점도 있다.

또 아시아 NeRF 연구 커뮤니티를 중심으로 인간 움직임을 임의 3D 모델로 재현하는 응용 기술도 연구되고 있다. 상하이공대가 2021년 발표한 ST-NeRF라는 기술에선 퍼포머와 3D 모델간 균형비를 임의로 바꾸는 게 가능하다. 중국 4개 대학이 공동 개발한 AD-NeRF라는 기술에선 NeRF를 이용해 인물 이미지와 발화 음성 데이터에서 대상 인물이 연설하는 동영상을 제작하는데 성공했다.

다양한 응용이 기대되는 NeRF지만 딥페이크와 마찬가지로 학습 화상 입력 크기에 실용적인 제한이 존재하는 것 외에 확장성 곤란이라는 문제도 안고 있다. 자율주행차를 개발하는 웨이모는 자율주행 시뮬레이션에 딥페이크를 이용하고 있으며 이런 문제를 해결하기 위해 저해상도 NeRF 데이터를 복수 조합해 고해상도 환경이나 오브젝트를 생성하는 블록-NeRF(Block-NeRF)라는 기술을 개발하고 있다.

앞을로 신경망 2개가 경쟁해 데이터 학습 정확도를 높이는 적대적 생성 네트워크 GAN과 NeRF 장점을 결합해 서로 부족한 점을 보완하는 기술 개발이 진행될지 모른다. NeRF 입력 화상이 현실 세계 사진일 필요는 없기 때문에 GAN에서 생성한 화상을 기초로 3D 모델을 생성하는 등 응용을 생각해볼 수 있다. 이미 여러 논문에서 GAN과 NeRF를 결합한 기술이 제안되고 있기도 하다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독