오픈소스에 대한 모든 것을 정의하고 관리하는 OSI(Open Source Initiative)가 오픈소스 AI를 정의하는 OSAID(The Open Source AI Definition) 버전 1.0을 공개했다.
오픈소스는 소프트웨어 시스템 학습・사용・공유・개선 장벽을 제거해 모든 사람에게 큰 이점을 가져다준다는 걸 입증해왔다. OSI는 오픈소스 이점이 오픈소스 정의에 부합하는 라이선스를 사용해 얻을 수 있는 것이라고 주장하고 있다. AI의 경우 AI 개발자・도입자・엔드유저가 자율성・투명성・원활한 재사용・공동 개선과 같은 이점을 누릴 수 있도록 하기 위해 오픈소스와 같은 기본적인 자유가 필요하다.
이에 OSI는 학계와 업계와 협력해 오픈소스 AI를 정의하는 OSAID 버전 1.0을 수립했다. OSI는 오픈소스 AI를 다음과 같은 자유를 부여하는 조건과 방법으로 제공되는 AI 시스템으로 정의하고 있다. 허가를 구하지 않고 모든 목적으로 시스템을 사용할 수 있다는 것, 시스템이 어떻게 작동하는지 조사하고 그 구성요소를 검사하는 것, 출력 변경을 포함한 모든 목적으로 시스템을 수정하는 것, 다른 사용자가 변경 여부에 관계없이 모든 목적으로 사용할 수 있도록 시스템을 공유하는 것 등이다.
또 기계학습 시스템에 변경을 가하기 위한 권장 형식으로 다음을 제시했다. 먼저 데이터 정보. 숙련된 사람이 실질적으로 동등한 시스템을 구축할 수 있도록 시스템을 트레이닝하기 위해 사용된 데이터에 관한 충분히 상세한 정보. 데이터 정보는 OSI 승인 조건에 따라 제공되어야 한다. 승인 조건은 먼저 트레이닝에 사용된 모든 데이터에 대한 완전한 설명, 데이터 출처, 범위와 특성, 데이터 획득 방법과 선택 방법, 라벨링 절차, 데이터 처리 및 필터링 방법 공개. 다음으로 공개된 모든 트레이닝 데이터와 그 입수처 목록. 이어 제3자로부터 입수할 수 있는 모든 트레이닝 데이터와 그 입수처 목록이다.
다음은 코드. 시스템 학습과 실행에 사용되는 완전한 소스코드. 코드는 데이터 처리 방법과 필터링 방법, 트레이닝 실행 방법에 대한 완전한 사양을 나타내야 한다. 코드는 OSI 승인 라이선스에 기반해 제공되어야 한다.
예를 들어 사용되는 경우 여기에는 데이터 처리와 필터링에 사용되는 코드, 사용되는 인수와 설정을 포함한 트레이닝에 사용되는 코드, 검증과 테스트, 토크나이저나 하이퍼파라미터 검색 코드 등 지원 라이브러리, 추론 코드, 모델 아키텍처가 포함되어야 한다.
이어 파라미터. 가중치나 기타 구성 설정 등 모델 파라미터. 파라미터는 OSI 승인 조건에 따라 이용 가능해야 한다. 예를 들어 여기에는 트레이닝 주요 중간 단계 체크포인트나 최종적인 옵티마이저 상태가 포함될 수 있다.
기계학습 시스템의 경우 AI 모델은 모델 아키텍처, 모델 파라미터, 모델을 실행하기 위한 추론 코드로 구성되며 AI 가중치는 모델 아키텍처를 오버레이해 특정 입력으로부터 출력을 생성하는 학습된 파라미터 세트를 지칭하며 기계학습 시스템에 변경을 가하기 위한 권장 형식은 이런 개별 구성요소에도 적용된다.
한편 OSI는 AI 시스템 및 기계학습을 다음과 같이 정의하고 있다. 먼저 AI 시스템. AI 시스템은 명시적 또는 암묵적인 목적을 위해 수신된 입력으로부터 물리적 환경 또는 가상 환경에 영향을 미치는 예측, 콘텐츠, 추천, 결정 등 출력을 생성하는 방법을 추론하는 기계 기반 시스템이다. AI 시스템에 따라 배포 후 자율성과 적응성 수준은 다르다.
다음은 기계학습. 기계가 성능을 향상시키고 일반적으로 트레이닝 데이터에 노출시켜 자동적으로 모델을 생성하는 것을 가능하게 하는 일련의 기술이다. 이를 통해 명시적인 인간 지시가 아닌 패턴이나 규칙성을 식별하는 데 도움이 된다. 기계학습 기술을 사용해 시스템 성능을 향상시키는 프로세스는 트레이닝이라고 불린다.
OSI 부사장인 스테파노 마푸를리는 정책 입안자와 AI 개발자를 같은 인식에 서게 하는 게 큰 동기라며 규제 당국은 이미 이 분야에 주목하고 있으며 기술 업계 뿐 아니라 다양한 이해관계자와 커뮤니티에 적극적으로 접근했으며 초기 피드백을 얻기 위해 규제 당국과 가장 빈번하게 대화하는 조직에도 연락을 취하려고 했다고 밝혔다.
OSAID에서 오픈소스 AI 모델로 인정받기 위해서는 인간이 실질적으로 재현할 수 있을 만큼 충분한 설계 정보를 제공해야 하며 그 외에도 트레이닝 데이터 관련 정보도 공개해야 한다. 따라서 마푸를리는 메타 Llama와 같은 AI 모델은 오픈소스라고 부를 수 없다고 비난했다.
한편 OSI는 AI에서의 오픈소스라는 단어 사용법에 대해 AI 대기업과 협의하고 있다. 구글과 마이크로소프트는 완전히 오픈이 아닌 AI 모델에 대해 오픈소스라는 단어를 사용하지 않는 것에 동의했지만 메타는 이에 동의하지 않았다. 또 자사 AI 모델을 오픈소스라고 오랫동안 선전해 온 스태빌리티AI(Stability AI)는 100만 달러 이상 수익을 올리는 기업에는 엔터프라이즈 라이선스 취득을 의무화하고 있기 때문에 OSAID에서는 오픈소스 AI로 정의할 수 없다. 프랑스 AI 스타트업인 미스트랄(Mistral) 라이선스에서도 특정 모델과 출력을 상업적 목적으로 사용하는 게 금지되어 있기 때문에 OSAID에서는 오픈소스 AI로 정의할 수 없다.
실제로 AI Now Institute와 카네기멜론 대학의 연구자가 2023년 8월 실시한 조사에서는 많은 오픈소스 AI를 자칭하는 AI 모델이 실제로는 오픈이 아니라는 게 입증됐다. 다른 연구에서도 오픈소스를 표방하는 AI 모델 대부분이 오픈이 아니라는 게 나타났다.
메타는 OSAID 초안 작성 과정에 참여했음에도 불구하고 OSAID 버전 1.0에 동의하지 않았다. 메타 측은 Llama 라이선스는 유해한 이용에 대한 가드레일로서 적절하게 기능한다고 주장했다. 또 캘리포니아 주 트레이닝 투명성법 같은 규제를 언급하며 트레이닝 데이터 상세 내용을 포함한 모델 상세 내용을 공유하는 것에 신중한 접근을 취하고 있다고 말했다.
한편 OSAID 버전 1.0을 지지하는 조직에는 모질라, 인텔, 스탠포드 대학, 블룸버그, 디지털 퍼블릭 굿즈 얼라이언스(Digital Public Goods Alliance) 등이 이름을 올리고 있다. 관련 내용은 이곳에서 확인할 수 있다.