테크레시피

정밀 3D 콘텐츠 실현 가능한 프레임워크 ‘3D-GPT’

호주와 중국 연구팀이 대규모 언어 모델과 2D 애니메이션, 3D CG 제작 도구인 블렌더(Blender)를 조합해 인간이 자연 언어로 입력한 문장을 적절하게 해석해 고정밀 3D 콘텐츠를 만드는 프레임워크인 3D-GPT를 발표했다.

기본 규칙과 세트를 기반으로 3D 모델과 텍스처를 생성하는 절차적 모델링(procedural modeling)은 효율적인 콘텐츠 제작을 추구하는 유망한 선택이다. 하지만 절차적 모델링을 수행하려면 규칙, 알고리즘, 매개변수에 대한 이해가 필요하며 인간 제작자에게 절차적 모델링 작업이 부담이 크다는 문제가 있다.

따라서 연구팀은 명령 구동형 3D 모델링에 대규모 언어 모델을 사용하는 프레임워크인 3D-GPT를 개발했다. 3D-GPT에선 대규모 언어 모델이 숙련된 문제 해결자 역할을 맡아 3D 모델링에 필요한 태스크를 관리 가능한 세그먼트로 분할해 적절한 에이전트가 작업을 실행하게 한다.

3D-GPT는 주로 태스크 디스패치 에이전트, 개념화 에이전트, 모델링 에이전트 3가지 에이전트로 이뤄진다. 태스크 디스패치 에이전트는 인간이 입력한 프롬프트를 받아 후속 처리에 필요한 함수를 지시해 나머지 2가지 에이전트간 협력을 촉진한다. 개념화 에이전트는 인간 프롬프트에 포함되어 있지 않지만 3D 콘텐츠 생성에 필요한 설명을 보충하기 위한 추론을 실시하고 모델링 에이전트가 블렌더 API를 호출하기 위한 파이썬 코드 생성이라는 처리를 실시한다.

연구팀은 이런 에이전트가 협력해 인간이 입력한 장면에 대한 설명을 체계적으로 강화하고 이후 인간 지시에 따라 텍스트를 동적으로 적응시킬 수 있다고 설명했다.

연구팀은 실증적 조사를 통해 3D-GPT가 명령을 해석하고 실행하고 신뢰할 수 있는 결과를 가져올 뿐 아니라 인간 디자이너와 효과적으로 협력하는 게 확인됐다며 더구나 3D-GPT는 블렌더와 원활하게 통합해 가동 가능성을 넓힐 수 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사