테크레시피

영상을 고품질 3D 데이터로 변환하는 기술

영상과 이미지를 입체로 변환하는 기술인 NeRF(Neural Radiance Fields)로 카메라가 이동하면서 촬영한 긴 영상을 취급하는 건 어렵고 아무래도 품질에 어려움이 있었지만 한국과학기술원, 대만대학, 메타, 메릴랜드대학 등 연구팀이 긴 영상에서도 고품질 3D 데이터를 렌더링할 수 있는 기법을 고안했다.

NeRF는 3차원 위치 정보와 시야 방향을 밀도나 색에 대응시켜 볼륨 표현을 최적화하고 있다. 그런 다음 볼륨 렌더링을 이용해 픽셀을 렌더링할 수 있다. 이 렌더링 절차는 미분 가능하며 모든 광선을 렌더링해 재구성 오류를 최소화해 장면 표현을 최적화할 수 있다. 합성 오브젝트라면 유계 영역에서 쉽게 표현할 수 있기 때문에 이 방법이 유효하다.

현실 풍경의 경우 카메라에 가까운 물체도 먼 물체도 포함되기 때문에 조금 어려워진다. 모든 카메라가 같은 방향을 향하고 있는 경우에는 NDC를 이용해 공간을 바꿔 경계를 설정할 수 있다.

카메라가 안쪽을 향한 360도 사진이라면 Mip-NeRF 360이 공간을 유계 영역에 매끄럽게 바꾸기 위한 수축 조작을 제공해준다. 하지만 어려운 건 긴 궤적에서 캡처된 대규모 장면 모델링이다. 수축 기술은 여전히 적용 가능하다. 렌더링 결과는 처음에는 좋은 것처럼 보이지만 중심에서 멀어질수록 품질이 떨어진다.

따라서 연구팀은 궤적에 따라 여러 국소적인 방사휘도 필드를 만드는 방법을 고안했다. 이를 통해 고품질 재구성, 자유 시점 합성 결과를 유지하면서 긴 시퀀스를 처리할 수 있다. 남은 과제는 카메라 구도다.

NeRF 대부분은 SfM(Structure from Motion) 알고리즘을 통해 카메라 구성을 확실하게 추정할 수 있다고 가정한다. 하지만 SfM 알고리즘은 견고하지 않은 경우가 많고 구도 추정에 실패하면 해결책이 없다. 따라서 생각한 게 방사휘도 필드와 함께 카메라 프로세스를 예측하는 수법이다. 이게 짧은 시퀀스면 잘 작동하지만 긴 시퀀스라면 작동하지 않는다.

따라서 연구팀은 국소적인 방사휘도 필드를 만드는 도구로 카메라 프로세스를 점진적으로 추정했다. 이에 따라 국소적 추정과 점진적 추정을 통해 더 높은 견고성을 제공하게 됐다. 렌더링은 인접한 방사선 휘도 필드 결과를 혼합해 원활한 전환을 실현한다. 연구팀 기술로 긴 시퀀스에서도 매끄러운 렌더링에 성공했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독