최근에는 AI 기술이 진보하고 있으며 고정밀 텍스트와 이미지를 생성하는 AI가 등장하고 있다. 메타가 이번에는 텍스트를 바탕으로 음악이나 효과음을 생성하는 오픈소스 AI 도구인 오디오크래프트(AudioCraft)를 발표했다.
메타는 최근 대규모 언어 모델을 탑재한 AI는 텍스트 생성과 기계 번역, 음성 대화 에이전트, 이미지와 영상 생성 등에서 큰 진보를 이룬 반면 오디오 분야에선 지연되어 왔다고 밝혔다. 물론 과거에는 텍스트에서 음악을 생성하는 AI가 종종 발표됐지만 복잡해 쉽게 시도하기 어려웠다는 설명이다.
충실도가 높은 오디오를 생성하려면 복잡한 신호와 패턴을 다양한 스케일로 모델링해야 한다. 음악은 일련의 음표와 여러 악기로 이뤄진 구조를 갖고 있기 때문에 생성하기 어려운 타입 오디오다. 메타에 따르면 텍스트 기반 생성 모델에서 사용되는 샘플은 개당 수천 시간 단계로 이뤄지지만 표준 품질 44.1kHz로 녹음된 몇 분짜리 음악 샘플은 하나에 수백만 타임스텝으로 처리된다고 한다.
따라서 메타는 음악을 생성하는 뮤직젠(MusicGen), 효과음 등 음성을 생성하는 오디오젠(AudioGen), 신경망 기반 오디오 압축 코덱인 인코덱(EnCodec) 3가지 모델로 이뤄진 오픈소스 오디오 생성 AI 도구인 오디오크래프트를 발표한 것. 뮤직젠은 메타가 보유한 2만 시간에 이르는 메타 데이터가 포함된 음악으로 학습됐으며 오디오젠은 공공 효과음으로 학습된 것이다.
공식 사이트에선 오디오크래프트를 이용해 프롬프트로 생성한 다양한 효과음을 들어볼 수 있다. 오디오크래프트 모델은 오픈소스로 공개되어 있으며 연구 목적과 기술에 대한 이해를 높이기 위해 사용할 수 있다. 메타는 오디오크래프트 코드를 공유해 다른 연구자가 생성 모델의 잠재적 편향과 오용을 제한하거나 제거하기 위한 새로운 접근법을 더 쉽게 테스트하기를 기대한다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.
한편 메타 가상현실 연구팀인 리얼리티랩(Reality Labs)이 개발한 중인 가상현실 헤드셋 관련 새로운 기술을 도입한 프로토타입 2종(Butterscotch Varifocal, Flamera)도 소개해 눈길을 끈다.
버터스카치 바리포컬은 메타가 2015년부터 개발 중으로 2018년 존재가 공개된 프로토타입 가상현실 헤드셋이다. 가장 큰 특징은 하프 돔(Half Dome)이라고 불리는 가변초점 기술과 인간 눈 해상도를 재현하는 망막 해상도 디스플레이를 탑재하고 있다는 것이다.
보통 근처에 있는 걸 보고 있을 때는 멀지만 먼 걸 보고 있을 때에는 근처가 흐리게 보이게 된다. 하지만 가상현실 기기에서 보이는 경치는 평면 디스플레이에 비친 영상이며 육안으론 가상 물체를 봐도 디스플레이와 눈 거리는 변화하지 않기 때문에 초점이 변하지 않는다.
버터스카치 바로포컬에 탑재된 가변 초점 기술인 하프 돔이란 아이트래킹 기술을 구사해 사용자가 어디를 보고 있는지 판단해 이에 따라 디스플레이를 눈에 가까이 하거나 멀리 하게 해주는 기술이다. 다만 시장에서 용이하게 입수할 수 있는 액정 디스플레이 패널로 망막 해상도를 달성하려면 아무래도 시야가 좁아져 버린다고 한다. 리얼리티랩에 따르면 메타 퀘스트2 시야각이 90도가 넘는 반면 버터스카치 바로포컬은 현재 50도라고 한다.
또 하프 돔 가변 초점 디스플레이 도입 사정상 본체 크기도 메타 퀘스트2보다 조금 커지게 된다. 하프 돔은 지금까지 4가지 버전이 존재하며 3번째 버전으로 기계식이 아닌 전자식 가변 초점 시스템을 도입해 크기도 작아졌다고 한다. 하지만 성능을 고려해 4번째 버전에선 다시 기계식 가변 초점 시스템으로 돌아갔다고 한다.
리얼리티랩 측은 이 시스템 목적은 인간 눈 능력에 거의 필적하는 시각적 선명도를 제공할 수 있는 가상현실 디스플레이 시스템을 입증하는 것이라며 헤드셋이 인간 눈으로 인식할 수 있는 한계에 가까운 선명도로 미세한 부분을 표시할 수 있다는 걸 의미한다고 설명하고 있다.
다음으로 플라메라. 가상현실에는 존재하지 않는 거대한 스크린으로 영화를 보거나 더 인터랙티브한 콘텐츠를 접하는 등 완전 몰입형 체험이 가능하다. 하지만 헤드셋 밖에 있는 현실 세계를 볼 수 없어 매번 헤드셋을 분리해야 한다. 이 문제를 해결하는 건 패스스루이며 메타 퀘스트2에선 흑백으로, 메타 퀘스트 프로에선 풀컬러로 외부 세계를 헤드셋을 통해 볼 수 있다. 플라메라는 더 육안에 충실한 패스스루를 만드는 기술이다.
패스스루는 헤드셋에 내장된 인사이드 아웃 카메라로 촬영한 영상을 내부 처리에 의해 입체 영상으로 변환, 투영하는 구조다. 하지만 인사이드 아웃 카메라는 육안과 다른 위치에 있기 때문에 인사이드 아웃 카메라로 촬영한 영상은 육안으로 본 현실과 아무래도 엇갈려 왜곡이 나타나며 원근감도 모른다.
플라메라는 육안으로 보는 것과 같은 광선을 직접 포착하는 걸 목적으로 한 광학 기술이다. 많은 렌즈를 준비해 시선 같은 방향 렌즈 빛을 읽는 것으로 육안으로 본 영상에 가까운 패스스루를 실현하려는 것이다.
이 렌즈를 통합한 플라메라 실증용 헤드셋은 일반 헤드셋과 크게 다르다. 디스플레이와 눈 위치가 가까울수록 플라메라 성능은 높아진다고 한다. 하지만 플라메라 카메라 센서를 넣으면 헤드셋 크기가 상당히 커져 어떻게 헤드셋을 얇게 만들지 염두에 두고 처음부터 설계를 다시 했다고 한다. 플라메라 패스스루 영상에는 왜곡이 거의 없고 물건에 대한 원근감도 분명하게 알 수 있다. 관련 내용은 이곳에서 확인할 수 있다.