바이트댄스(ByteDance)는 이전에 사용자 취향에 맞는 영상을 찾는 틱톡 알고리즘으로 세계적인 AI 선두 기업이 됐지만 오픈AI가 대두되며 생성형 AI 분야에서 뒤처지고 있다. 독자적인 생성형 AI인 두오바오(Doubao)를 도모하고 있는 바이트댄스가 이용 규약을 위반하는 형태로 오픈AI API를 사용해 프로젝트 시드(Project Seed)라는 명칭으로 대규모 언어 모델을 개발하고 있다는 게 내부 문서를 통해 밝혀졌다고 한다.
보도에 따르면 내부 문서에 따르면 바이트댄스는 프로젝트 시드라는 코드명으로 불리는 LLM을 개발하기 때문에 모델 학습이나 평가를 포함한 개발 거의 모든 단계에서 오픈AI API를 사용했다는 것.
이런 행위는 AI 업계에선 법적으로 오픈AI 이용 약관이나 바이트댄스가 직접 액세스권을 구입하고 있던 마이크로소프트 이용 약관에도 분명하게 저촉되는 것이라고 한다. 문제의 이용 약관은 오픈AI가 공개하고 있는 법인용 조항(Business terms)이다. 이 중 오픈AI는 자사 API를 자사 제품이나 서비스와 경쟁하는 AI 모델을 개발하는데 사용해선 안 된다고 명시하고 있다. 보도에선 바이트댄스 사내 도구(Lark) 상에서 직원이 데이터 감도 억제(data desensitization)에 의해 증거를 눈가림(whitewash)하는 방법에 대해 토론하고 있는 걸 확인했다. 또 악용이 횡행하고 있기 때문에 프로젝트 시드에 종사하는 직원은 정기적으로 API 액세스 상한을 넘고 있었다고 한다.
프로젝트 시드 개발 초기에는 대담하게 API를 사용하던 바이트댄스였지만 2023년 후반에는 모델 개발 어느 단계에서도 GPT가 생성한 텍스트를 사용하지 않도록 개발팀에 엄명을 내렸다고 한다. 회사 측은 중국에서 두오바오라는 자체 채팅봇을 통해 프로젝트 시드를 출시하기 위한 승인을 규제 당국에 한 게 얼마 전이었다.
하지만 이후에도 바이트댄스는 두오바오용 모델 성능 평가 등 이용 약관을 위반하는 방식으로 오픈AI API를 계속 사용하고 있다. 한편 보도에 대해 바이트댄스는 GPT가 생성한 데이터는 개발 초기 프로젝트 시드 모델 주석에 사용됐으며 2023년 중반에는 바이트댄스 교육 데이터에서 삭제됐다고 해명했다. 회사 측은 바이트댄스는 GPT API를 사용하기 위해 마이크로소프트로부터 라이선스를 취득했다며 중국 이외 시장에선 제품과 기능을 강화하기 위해 GPT를 사용하고 있지만 중국에서만 사용할 수 있는 두오바오에는 자가 개발 모델을 사용하고 있다고 밝혔다.
보도 이후 오픈AI는 바이트댄스 계정을 중단시켰다고 밝혔다. 오픈AI는 바이트댄스에 의한 API 사용은 최소한이었지만 조사를 위해 계정을 중단시켰다고 밝혔다. 조사에서 바이트댄스가 정책을 따르지 않는다는 게 분명해지면 오픈AI는 바이트댄스가 사용법을 바꾸거나 공식적으로 계정을 중단할 계획이다.
물론 경쟁 제품 구축에 도움이 되는 AI 모델, 그 중에서도 오픈AI 같은 독창성을 활용하는 건 중소기업에게 일반적 관행이다. 오픈AI와 마이크로소프트는 지금까지 위반사 적발에 나서지 않았기 때문에 이런 API 사용은 중소기업 사이에서 법적 회색 영역으로 간주되어 왔다. 하지만 바이트댄스 같은 대기업이 이런 수단을 쓰는 건 이례적이라는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.