오픈AI, 차세대 AI 모델 개발…잇따른 문제로 비용 증가

오픈AI는 2023년 4월 AI 모델 GPT-4를 발표했지만 후속작이 될 새로운 AI 모델 GPT-5는 아직까지도 발표되지 않았다. 오픈AI는 GPT-5 개발을 오리온(Orion)이라는 코드명으로 진행하고 있지만 그 과정에서 다양한 문제에 직면하고 있다는 보도가 나왔다.

2022년 오픈AI가 챗GPT를 출시해 전 세계에 충격을 준 이후 AI는 계속해서 개선되어 이미 생활 속에 스며들고 있다. 분석가는 대기업이 향후 수년간 AI 프로젝트에 1조 달러를 투자할 가능성이 있다고 추측하고 있는데 중심에 있는 게 AI 붐 제로 포인트인 오픈AI다.

오픈AI는 챗GPT 기반이 되는 기술을 크게 발전시키기 위해 2023년 전반부터 18개월 이상 GPT-5 개발에 매진해왔다. 2023년 7월에는 미국 특허상표청(USPTO)에 GPT-5 상표 등록을 출원했으며 지난 여름에는 GPT-5가 출시될 것이라는 보도가 있었고 오픈AI에 대한 가장 중요한 투자자인 마이크로소프트도 2024년 중 GPT-5가 등장할 것을 기대했다고 한다.

하지만 오픈AI 샘 알트만 CEO는 지난 11월 1일 온라인 커뮤니티 레딧에 나타나 2024년 후반 훌륭한 제품을 여러 개 출시할 예정이지만 그 중에 GPT-5라고 불리는 제품은 포함되지 않는다고 밝혀 GPT-5가 2024년 중 출시되지 않을 것임을 명확히 했다.

GPT-5에 기대되는 건 누군가와의 약속이나 항공기 예약 등 일상적인 인간 태스크를 대신 실행하는 것이다. 또 기존 AI는 잘못된 정보를 사실인 것처럼 단언해버리는 환각 문제를 안고 있지만 연구자는 GPT-5에서는 환각이 대폭 감소하거나 적어도 불확실한 정보에 대해 AI 스스로가 의문을 제기할 수 있게 되기를 희망하고 있다고 한다.

AI 모델이 얼마나 똑똑해져야 GPT-5로 인정될 수 있는지를 정하는 기준은 없지만 지금까지 GPT-5는 오픈AI 기대를 충족시킬 만한 성능에는 도달하지 못한 것으로 보인다. 오픈AI는 GPT-5 개발에서 적어도 2회 대규모 트레이닝을 실시했지만 그때마다 새로운 문제가 발생했다고 한다. 현재까지 GPT-5를 가동시키는 막대한 비용을 정당화할 만한 진전은 얻지 못했다고 보도되고 있다.

GPT-4를 포함한 많은 AI 모델은 수만 개 고성능 칩을 갖춘 데이터센터를 사용해 수개월에 걸쳐 방대한 데이터를 투입해 트레이닝을 진행하고 있다. 알트만 CEO에 따르면 GPT-4 트레이닝에는 1억 달러 이상 비용이 들었다고 하며 미래 AI 모델에서는 트레이닝 비용이 10억 달러를 초과할 것으로 예상되고 있다. 이런 대규모 AI 모델 트레이닝이 실패로 끝나면 마치 우주 로켓이 발사 직후에 폭발하는 것과 같은 손해와 낙담을 가져온다.

따라서 연구자는 대규모 트레이닝 전에 소규모 테스트를 실시해 피해를 최대한 줄이려고 시도하고 있다. 오픈AI는 2023년 중반 GPT-5 새 설계안 테스트를 겸한 트레이닝 계획을 시작했지만 대규모 트레이닝 실행에는 방대한 시간과 비용이 소요될 가능성이 시사됐다.

보통 AI 모델은 트레이닝에 사용하는 데이터가 많을수록 성능이 높아진다고 알려져 있으며 지금까지 오픈AI는 인터넷에서 수집한 뉴스 기사나 SNS 게시물, 과학 논문 등 데이터를 사용해 왔다. 하지만 오픈AI는 2023년 실패를 겪은 뒤 공공 인터넷에서 얻은 데이터로는 GPT-5 트레이닝에 충분하지 않으며 더 다양하고 고품질 데이터셋이 필요하다는 결론에 도달했다고 한다.

오픈AI는 이 과제를 해결하기 위해 스스로 제로부터 데이터를 작성하는 방법을 채택했다. 이를 위해 새로운 소프트웨어 코드를 작성하거나 GPT-5가 학습할 수학 문제를 해결하기 위해 소프트웨어 엔지니어와 수학자를 고용했다고 한다. 오픈AI, 메타와 제휴하는 AI 인프라스트럭처 기업 튜링(Turing) CEO 겸 공동 창업자인 조나단 시드하스는 자사는 인간 지성을 인간 마음에서 기계로 옮기고 있다고 밝혔다.

튜링에 따르면 소프트웨어 엔지니어는 복잡한 논리 문제를 효율적으로 해결하는 프로그램을 작성하도록 요구받거나 수학자는 농구공 100만 개로 이뤄진 피라미드 높이를 계산하도록 지시받는다고 한다. 이런 답변과 그에 이르는 과정이 AI의 트레이닝 데이터에 통합되어 성능 향상에 도움이 될 것으로 기대되고 있다.

하지만 이 수작업 절차는 시간이 많이 걸린다는 단점이 있다. GPT-4는 추정 13조개 토큰으로 학습됐지만 1,000명이 하루 5,000단어를 작성하더라도 10억 토큰을 생성하는 데 수개월이 걸린다. 따라서 오픈AI는 GPT-5 트레이닝 데이터 작성을 지원하기 위해 다른 AI 모델이 생성한 데이터를 조합하고 있다고 한다.

오픈AI는 이런 그렇지 않아도 어려운 과제의 해결에 더해 알트만 CEO 해임 소동과 같은 사내 혼란, 그리고 경쟁사의 인재 헤드헌팅에도 시달리고 있다. 경쟁사는 인재를 영입하기 위해 수백만 달러 오퍼를 제시하기도 한다고 하며 2024년에는 공동 창업자인 일랴 서츠키버가 AI 기업 세이프슈퍼인텔리전스(Safe Superintelligence)를 설립한 걸 비롯해 20명 이상 주요 경영 간부와 연구원이 오픈AI를 떠났다.

2024년에 들어서면서 GPT-4 출시로부터 1년이 경과했고 앤트로픽이나 구글과 같은 경쟁사도 GPT-4에 근접한 성능을 갖춘 AI 모델을 출시해왔다. 이런 상황에서 오픈AI 경영진은 GPT-4 관련 신제품 개발에 리소스를 할당하기 시작했고 제한된 컴퓨팅 리소스를 두고 GPT-5 개발팀과 신제품 개발팀 사이에 갈등이 발생했다고 한다.

그럼에도 2024년 초 소규모 트레이닝을 실시한 GPT-5 개발팀은 5월에 대규모 트레이닝을 시작했다. 당초 이 트레이닝은 11월까지 계속될 것으로 예상됐지만 트레이닝을 시작하자 학습 데이터가 생각했던 것만큼 다양하지 않아 학습이 제한될 가능성이 있다는 문제가 발생했다. 이 문제는 소규모 트레이닝에서는 발견되지 않았던 것이지만 이미 처음부터 다시 시작하는 게 불가능할 정도 시간과 비용을 투자한 오픈AI는 트레이닝 프로세스 중에 새로운 데이터를 찾기 위해 분주히 움직였다. 한편 이 전략이 성과를 거두었는지 여부는 분명하지 않다고 한다.

이런 문제는 과거 AI 모델 성공을 이끌어온 more-is-more(트레이닝 데이터가 많을수록 AI 모델 성능이 높아진다)라는 전략이 힘을 잃어가고 있음을 시사한다. 서츠키버도 세이프슈퍼인텔리전스 설립 후 AI 콘퍼런스에서 인터넷이 하나밖에 없기 때문에 데이터는 늘어나지 않다며 데이터는 AI를 위한 화석 연료라고까지 말할 수 있다고 발언했다.

i think the wsj is the overall best us newspaper right now, but they published an article called "The Next Great Leap in AI Is Behind Schedule and Crazy Expensive" many hours after we announced o3?! https://t.co/JkA83TNTfO
— Sam Altman (@sama) December 22, 2024

다양한 문제에 직면한 오픈AI 연구자는 AI 모델을 진화시키는 새로운 접근법으로 추론에 주목하고 있다. 이는 AI 모델이 생각하는 것에 더 많은 시간을 할애해 트레이닝되지 않은 어려운 문제를 해결할 수 있게 될 가능성이 있다는 것이다. 2024년 9월 오픈AI가 출시한 ‘o1’은 단계적으로 추론을 수행할 수 있는 AI 모델이지만 애플 연구자는 o1을 포함한 추론 모델은 실제로는 새로운 문제를 해결하는 게 아니라 패턴을 모방하는 데 불과하다고 주장하는 등 정확도에 의문의 목소리도 나오고 있다.

보도에선 더 고도화되고 효율적인 추론 모델이 오리온(Orion. GPT-5) 기반이 될 가능성이 있다. 오픈AI 연구자는 그 접근법을 추구하고 더 많은 데이터라는 기존 방법과 조합하고 싶어 한다고 언급했다.

한편 알트만 CEO는 12월 20일 새로운 추론 모델 o3를 발표했지만 GPT-5에 대해서는 아무것도 밝히지 않았다.

이후 알트만 CEO는 기사를 언급하며 현재 미국 전체에서 가장 뛰어난 신문이라고 생각하지만 o3를 발표한 몇 시간 뒤 AI 다음 도약은 예정보다 늦어지고 있으며 비싸지고 있다는 기사를 게재했다며 비꼬는 글을 올렸다. 관련 내용은 이곳에서 확인할 수 있다.