오픈소스 표방하는 AI 모델…실제론 얼마나 개방됐을까

최근 발전을 이루고 있는 AI 분야에서는 오픈AI가 선보인 대규모 언어 모델 GPT가 비공개로 개발되고 있는 반면 메타 LLaMA나 구글 젬마(Gemma) 같은 대규모 언어 모델은 오픈 방식으로 개발이 진행되고 있다. 하지만 오픈소스로 개발을 진행하고 있다고 주장하는 언어 모델이라도 얼마나 오픈한지는 불분명하다. 이에 네덜란드 라드바우드대 연구팀은 오픈소스를 표방하는 언어 모델을 대상으로 오픈 정도에 대한 조사 결과를 보고하고 있다.

오픈소스라는 용어는 소스 코드에 대한 접근과 프로그램 사용 및 배포에 제한이 없다는 걸 의미한다. 하지만 대규모 언어 모델이 갖는 복잡성과 관련된 방대한 데이터량을 고려하면 모든 걸 오픈소스로 만드는 건 결코 쉬운 일이 아니다. 또 모델에 대한 모든 걸 공개하면 상업적 또는 법적 위험에 노출될 수 있으며 악용 위험도 높아진다.

그럼에도 불구하고 오픈소스라는 라벨을 붙이는 것만으로도 대규모 언어 모델을 개발하는 기업은 자신들이 투명성 있는 기업이라고 어필할 수 있다. 오픈워싱이라 불리는 이 관행 실태를 탐구하기 위해 연구팀은 오픈소스 또는 오픈이라고 주장하는 40개 대규모 언어 모델에 대한 평가를 실시했다. 평가에는 코드와 훈련 데이터 가용성, 공개된 문서, 모델에 대한 접근 용이성 등을 포함한 14개 매개변수가 사용됐다.

조사 결과를 보면 모든 모델이 오픈이라고 주장하고 있지만 빅사이언스(BigScience)의 블룸Z(BloomZ)는 모든 항목이 오픈으로 평가된 반면 메타 LLaMA 3-Instruct에는 거의 오픈한 항목이 없다고 지적되고 있다.

연구팀은 오픈 또는 오픈소스라고 주장하는 많은 AI 모델이 실제로는 가중치만 공개하고 있을 뿐이라고 지적했다. 다시 말해 외부 연구자는 훈련된 모델에 접근해 사용할 수는 있지만 모델을 검사하거나 커스터마이즈하는 건 불가능하다는 것. 또 인간 피드백을 사용하는 등 특정 작업에 맞춰 모델이 어떻게 미세 조정됐는지를 완전히 이해하는 것도 어려워 더 많은 정보를 공개하지 않으면 오픈이라고 부를 수 없다는 지적이다.

또 연구팀에 따르면 분석한 모델 절반이 일반적인 설명자 이외의 데이터세트에 관한 세부 정보를 전혀 공개하지 않고 있다고 한다.

대규모 언어 모델	소스 코드	모델 데이터	모델 가중치	프리프린트	API
BloomZ	오픈	오픈	오픈	오픈	오픈
OLMo	오픈	오픈	오픈	오픈	일부 오픈
Mistral 7B-Instruct	일부 오픈	폐쇄	오픈	일부 오픈	오픈
Orca 2	폐쇄	폐쇄	일부 오픈	일부 오픈	일부 오픈
Gemma 7B-Instruct	일부 오픈	폐쇄	일부 오픈	일부 오픈	폐쇄
Llama 3-Instruct	폐쇄	폐쇄	일부 오픈	폐쇄	일부 오픈

구글 측은 젬마는 어디까지나 오픈이며 오픈소스가 아니라며 기존 오픈소스 개념이 반드시 모두 받아들여지는 건 아니라고 말했다. 또 마이크로소프트 측은 무엇이 얼마나 이용 가능한지에 대해 가능한 한 정확하도록 노력하고 있다며 모델이나 코드, 도구, 데이터세트 등 성과물을 일반에 공개하기로 선택한 건 개발이나 연구 커뮤니티가 AI 기술 발전에 있어 중요한 역할을 담당하고 있기 때문이라고 밝혔다.

한 전문가는 이번 연구는 현재 오픈소스화 논쟁을 둘러싼 많은 과대 광고와 공론을 일거에 해결하는 것이라고 평가하기도 했다. 과학에 있어 오픈하다는 것은 재현성 면에서 중요하다며 재현할 수 없다면 이를 과학이라고 부르기 어려워진다면서 연구자가 혁신을 일으키는 유일한 방법은 기존 모델을 다루는 것이며 그러기 위해서는 충분한 정보가 필요하다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.