오픈AI는 AI 기술 악용을 막고 사회에 우호적 형태로 발전시키는 걸 목적으로 샘 알트만과 일론 머스크 등이 2015년 발족시킨 비영리조직이다. 이런 오픈AI 창업 멤버 중 하나인 일리야 수츠케버(Ilya Sutskever)가 설립 당초 이념이 잘못됐다고 밝혀 눈길을 끈다.
오픈AI는 지난 3월 14일 챗GPT에 사용되는 언어 모델 최신 버전인 GPT-4를 출시했다. 사법시험 상위 10% 성적을 거두는 등 성능이나 유연성으로 화제를 모았지만 AI 전문가나 연구자로부터 GPT-4에 관한 정보 공개가 불충분하다는 실망도 나왔다.
AI 기업인 노믹AI(Nomic AI) 벤 슈미트 부사장에 따르면 AI가 갖는 바이어스나 오류를 점검하거나 수정하려면 학습 데이터 공개가 필수 불가결하다고 말한다. 하지만 오픈AI는 GPT-4 구축에 사용한 데이터세트나 트레이닝 방법에 대해선 비공개로 하고 있으며 이 점에 대해 슈미트 부사장은 오픈AI는 GPT-4를 소개하는 논문으로 공개하지 않는다고 당당하게 선언하고 있다고 지적했다.
기술 보고서에서 오픈AI는 GPT-4와 같은 대규모 모델 경쟁 환경과 안전성을 모두 고려했다며 모델 크기가 포함된 구조, 하드웨어, 트레이닝 계산, 데이터세트 구축, 트레이닝 방법 또는 이와 유사한 것에 대한 추가 세부 정보는 기재하지 않았다.
오픈AI 측 결정에 비판이 터지는 가운데 오픈AI 수석 사이언티스트인 일리야 수츠케버는 경쟁과 안전성을 이유로 GPT-4 트레이닝 데이터를 비공개로 선택한 건 자명했다고 설명한다. 첫째 AI 분야에서 개발 경쟁에 대해 수츠케버는 GPT-4 개발이 쉽지 않았으며 같은 걸 만들고 싶은 기업은 많으며 그만큼 경쟁 면에서 이 분야가 성숙해졌다고 말할 수 있다고 밝혔다.
수츠케버는 또 안전성 관점에서도 이런 모델은 강력하지만 앞으로 더 강력해질 것이라며 이들 AI를 이용해 타인에게 큰 손해를 주는 게 쉬워질 수 있고 이 때문에 AI 능력이 높아지면서 이를 공표하고 싶지 않게 생각하게 된다고 밝혔다.
인공지능 개발에 대한 폐쇄적 접근법은 개방형 인공지능 연구를 목표로 설립된 오픈AI에게 큰 정책 전환이 될 것이다. 수츠케버 역시 오픈AI도 발족한 2015년 12월 비영리단체로서 목적은 주주가 아닌 모든 이들을 위한 가치를 구축하는 것이라고 밝힌 바 있다. AI 연구를 공유하겠다는 당초 자세를 바꾼 이유에 대해 수츠케버는 자신들이 완전히 틀렸다며 AI나 AGI 그러니까 범용 인공지능이 믿을 수 없을 만큼 강력하다고 믿는다면 오픈소스로 만드는 건 무의미하고 나쁜 아이디어이며 현명하지 않다는 게 누구의 눈에도 분명해질 것이라고 생각한다고 밝혔다.
오픈AI가 GPT-4 세부 사항을 비공개로 만드는 또 다른 이유로 지적되는 건 법적 책임이다. 언어 모델은 엄청난 텍스트 데이터로 학습되지만 대부분 데이터는 웹 스크래핑에 의해 인터넷에서 수집되는 것이므로 저작권으로 보호되는 데이터가 데이터세트에 포함될 수 있다. 이는 언어 모델 뿐 아니라 그림이나 일러스트를 학습한 이미지 생성 AI에도 공통된 문제다.
이에 대해 수츠케버는 자신의 견해로는 학습 데이터는 기술이라고 말한다. 하지만 오픈AI 학습 데이터에 저작권 침해로 인한 것이 있는지 여부에 대한 질문에는 답하지 않았다.
AI가 급속하게 발전하는 가운데 대형 AI 기업은 자사 제품에 AI를 도입하는 걸 서두르고 있어 종종 안전이나 윤리에 관한 논의가 남아 있다. 예를 들어 인터랙티브 인공지능인 빙 챗은 GPT-4가 기반이 됐다고 밝혔다. 마이크로소프트는 2023년 3월 AI 기술에 대한 위험 연구를 전문으로 한 사내팀을 해고했다.
영국 싱크탱크(The Centre for Long-Term Resilience) 측 담당자는 GPT-4 세부 사항을 공유하지 않는다는 오픈AI 결정에 일정한 이해를 보이는 반면 AI가 중앙집권화될 우려가 있다고 지적한다. AI를 공개할지 여부를 선택하는 건 개별 기업에 맡겨선 안 된다며 이상적으론 독립적인 제3자가 큰 역할을 하고 모델 위험성, 전 세계에 공개하는 게 합리적인지 여부를 조사할 필요가 있다는 지적이다. 관련 내용은 이곳에서 확인할 수 있다.