오픈AI가 GPT-4를, 메타가 LLaMA를, 스태빌리티AI가 스테이블LM을 발표하는 등 대규모 언어 모델 LLM 개발 경쟁이 격화되고 있다. 마찬가지로 대규모 언어 모델인 LaMDA를 개발하는 구글이 경쟁사를 분석하고 오픈소스 위협에 대해 자세히 설명한 내부 자료가 디스코드 공개 서버에 유출됐다.
오픈AI는 대화형 AI 분야에서 정점에 있다고 할 수 있지만 구글은 구글, 오픈AI, 메타 등 기업이 점유율을 두고 경쟁하는 가운데 승리하는 건 오픈소스라고 분석하고 있다. 2023년 3월 전월에 메타가 발표한 대규모 언어 모델인 LLaMA 데이터가 갑자기 인터넷상에 유출, 누구나 다운로드 가능한 상태가 됐다. 이 사건에 대해 구글은 중요한 모델이 사람들의 손에 넘어가 개발 속도가 폭발적으로 상승한 걸 지적하고 있다.
더구나 LLaMA-65B 등장 얼마 뒤 LLaMA를 능가할 만한 성능을 자랑하는 오픈소스 대규모 언어 모델 Vicuna-13B가 공개됐다. 이 모델은 챗GPT에서의 교환이나 프롬프트를 공유할 수 있는 확장 기능인 셰어GPT 데이터에 근거해 LLaMA 베이스 모델을 미조정해 고품질 성능을 실현했다. 각종 대화형 AI 응답 품질 평가에선 챗GPT를 100%로 할 경우 LLaMA는 68%, 알파카 7B 76%인 반면 Vicuna-13B 품질은 92%에 육박했다고 한다.
이런 오픈소스 대규모 언어 모델이 등장한 것에 대해 구글은 자사 모델은 품질이라는 점에서 여전히 작은 우위를 갖고 있지만 차이는 놀라울 정도로 빨리 줄고 있다며 모델은 빠르고 맞춤화가 가능하며 사설이며 파운드당 성능은 뛰어나다고 밝혔다. 100달러로 130억 매개변수를 몇 개월이 아니라 몇 주 안에 해버렸다는 건 상당히 큰 의미가 있다는 지적이다.
더구나 저비용으로 일반인 참가를 가능하게 해 대기업 추종을 허락하지 않는 기세를 수반해 전 세계인이나 조직으로부터 아이디어를 내고 반복이 활발하게 이뤄지게 됐다. 오픈소스 성공을 뒷받침한 혁신은 여전히 어려움을 겪고 있는 문제를 해결해왔다. 모델이 오픈소스로 공개된 효과는 이미지 생성 분야에서 두드러지며 빠르게 개방된 모델을 채택한 스테이블 디퓨전은 그렇지 않은 달리와 달리 제품 통합, 마켓플레이스, 사용자 인터페이스 같은 혁신적 기술이 탄생했다.
구글은 같은 일이 LLM에서 일어날지 여부는 아직 모르겠지만 구조적 요소는 동일하다며 부가가치는 어디에 있는지 생각해야 하며 제3자 통합을 가능하게 하는 걸 우선해야 한다며 지금까지의 폐쇄적 환경을 검토해야 한다고 기록하고 있다.
오픈소스가 주는 위협 외에도 적은 비용으로 효율적으로 언어 모델을 처리할 수 있는 조정 기능인 LoRA에 대해서도 구글은 무시해선 안 된다고 우려하고 있다. 구글은 이 기술은 자사의 가장 야심찬 프로젝트에 직접적 영향을 미치는 데에도 구글 내부에서 충분히 활용되지 않는다며 LoRA 업데이트는 가장 일반적인 모델 크기로 저렴하게 만든다. 다시 말해 아이디어만 있으면 누구나 업데이트를 만들고 배포할 수 있으며 더 좋은 건 이미 챗GPT와 거의 구별할 수 없을 정도라는 지적이다.
자사 기술을 비밀로 할 것인지 개방할 것인지는 구글에 있어 항상 명제지만 LLM에서의 첨단 연구가 적당한 가격으로 이뤄지며 기술에 있어 경쟁 우위를 유지하는 건 더 어려워지고 있다. 자신의 비밀을 굳게 지킨다고 하는 선택도 할 수 있는 한편 서로 배울 수 있는 오픈소스화 선택지를 채택할지에 대한 걸 구글이 감안하고 있다고 할 수 있다.
자사 모델이 유출된 메타에 대해 구글은 역설적이지만 여기에서 분명히 승자는 메타라고 지적한다. 유출은 됐지만 오픈소스 혁신 대부분은 메타 아키텍처에서 일어나고 있기 때문에 메타가 이 기술을 직접 자사 제품에 도입할 수 있기 때문이다. 경쟁하는 오픈AI에 대해선 구글은 오픈소스에 대한 자세에서 구글과 같은 실수를 범하고 있다며 구글이 오픈소스 선택을 취해 오픈AI가 자세를 바꾸지 않는 한 선수를 치려는 것이라는 지적이다. 이런 사례에서도 구글은 오픈소스 커뮤니티 리더로서의 지위를 확립하고 논의를 무시하는 게 아니라 협력해 주도권을 잡아야 한다는 의사를 나타냈다. 관련 내용은 이곳에서 확인할 수 있다.