오픈AI가 생각하는 AGI 안전성에 관한 생각은…

챗GPT 등 AI를 개발하는 오픈AI는 인간처럼 범용적인 지능을 가진 AGI 그러니까 범용 인공지능 개발을 목표로 하고 있다. AGI 개발에는 우려의 목소리도 많지만, 새롭게 오픈AI가 AGI 및 AI 안전성과 정합성에 대한 생각을 성명서로 발표했다.

오픈AI는 AGI가 전 인류에 이익을 가져다주는걸 사명으로 하고 있으며 여기에는 AI가 초래하는 부정적인 영향을 완화하고 긍정적인 영향을 얻을 수 있도록 하는 안전 대책이 중요하다. AI 안전성에 대한 오픈AI 측 이해는 시간이 지남에 따라 크게 변화하고 있으며 이번 성명서는 발표된 3월 6일 기준 생각을 반영한 것이다.

https://t.co/N8DyQgVVRb
— OpenAI (@OpenAI) March 5, 2025

한때 오픈AI는 AGI 개발에 대해 특정 시점에서 AI가 세계를 변화시키는 문제를 해결할 수 있게 된다고 생각했지만 현재는 AI 유용성이 증가하는 중 한 지점에 불과하다고 보고 있다. 그러니까 AGI는 갑자기 등장하는 게 아니라 AI가 지속적으로 발전하는 과정에서 조금씩 나타나는 것이라는 것이다.

만일 AGI가 특정 순간에 갑자기 나타난다면 안전성을 확보하기 위해 AI 시스템을 신중하게 다룰 필요가 있다. 이는 오픈AI가 GPT-2를 개발할 때 너무 위험하다며 공개를 연기한 접근 방식 배경에 있는 생각이다. 하지만 AGI가 지속적인 진화 과정에 있다면 AI 모델을 반복적으로 배포하고 안전성 및 악용에 대한 이해를 심화시키며 사회가 적응할 시간을 주는 게 다음 AI 모델을 더욱 안전하고 유익하게 만드는 데 도움이 될 것이다.

현재 오픈AI는 단계적 추론을 수행하는 사고의 연쇄 모델(chain-of-thought models)이라는 새로운 패러다임을 전개하고 있으며 현실 세계 사람이 이 모델을 사용하는 과정을 통해 학습하고 모델을 유용하고 안전한 것으로 만드는 방법을 연구하고 있다.

오픈AI가 AGI를 개발하는 이유는 AGI가 모든 인간 삶을 긍정적으로 변화시킬 가능성을 믿고 있기 때문이다. 오픈AI는 성명서에서 문해력에서 기계, 의료에 이르기까지 인류의 개선 대부분에 지능이 관여하고 있기 때문에 인류가 직면하는 대부분 과제는 충분히 유용한 AGI가 있다면 극복할 수 있다고 생각한다고 밝혔다.

그에 따라 오늘날 AI 시스템에는 3가지 카테고리에서 문제가 나타난다고 오픈AI는 지적하고 있다. 첫째 인간에 의한 악용. 오픈AI는 인간이 법률이나 민주적 가치에 반하는 방식으로 AI를 사용하는 걸 악용으로 간주하고 있으며 여기에는 정치적 편견이나 검열, 감시를 통해 언론 및 사상의 자유를 억압하는 게 포함된다. 또한 피싱 공격이나 사기 등도 AI가 악용되는 분야 중 하나다.

둘째 정합성 실패. 정합성의 실패란 AI 행동이 관련된 인간 가치관이나 지시, 목표, 의도와 일치하지 않는 상태를 의미한다. 예를 들어 AI가 사용자의 의도와는 다른 부정적인 영향을 초래하거나 인간에게 영향을 미쳐 본래 하지 않았을 행동을 하게 하거나 인간 통제를 약화시킬 가능성이 있다.

셋째 사회 혼란. AI는 인간 사회에 급속한 변화를 가져오고 있으며 이는 사회적 긴장이나 불평등 확대, 지배적인 가치관이나 사회 규범 변화 등 세계와 개인에게 예측할 수 없고 때로는 해로운 영향을 미칠 가능성이 있다. 또 AGI가 개발될 경우 AGI에 대한 접근은 경제적 성공을 좌우하는 요소가 되며 권위주의 정부가 AGI를 악용할 위험도 내포하고 있다.

오픈AI는 AI가 갖고 있는 현재의 위험을 평가하고 미래의 위험을 예측하며 이에 대비하고 있다고 전했다. 오픈AI는 사고와 행동 근본 원칙 6가지를 소개하고 있다.

첫째는 불확실성 수용. AI 미래 과제를 이해하려면 이론 뿐 아니라 현실 세계에서의 테스트를 수행하고 이해관계자로부터 통찰을 이끌어내야 한다. 안전성을 확보하기 위해 오픈AI는 안전성과 위협을 엄격하게 측정하고 잠재적인 부정적인 영향이 표면화하기 전에 위협을 완화하기 위한 노력을 진행하고 있다고 밝혔다. 경우에 따라 AI 위험을 우려해 통제된 환경에서만 출시하거나 AI 자체가 아닌 AI를 활용한 도구만 공개할 가능성도 있다고 오픈AI는 언급했다.

둘째 다층적인 방어. 오픈AI는 단일 개입이 안전하고 유익한 AI를 생성하는 해결책이 될 가능성이 낮다고 보고 여러 방어를 다층적으로 전개하는 접근 방식을 채택하고 있다. 예를 들어 모델 훈련 시점에서 안전성을 확보하기 위한 지원층을 제공하고 구성 요소 테스트는 개별적으로 뿐 아니라 엔드투엔드로 수행한다. 배포 후에도 모니터링과 조사를 지속하며 경우에 따라 강제적인 규칙을 설정해 안전성을 확보할 것이라고 밝혔다.

셋째 스케일링 방법. 오픈AI는 AI 모델이 진화함에 따라 지능과 정합성을 향상시키는 방법을 모색하고 있으며 이미 오픈AI가 개발한 추론 모델인 o1 추론 능력을 사용해 o1 자체 정합성을 개선할 수 있다는 게 입증됐다고 전했다. 오픈AI는 연구 프로그램 일환으로 통일된 목적 아래에서 안전성과 능력을 최적화하는 방법 그리고 정합성을 위해 지능을 활용하는 방법을 더 잘 이해하는 걸 목표로 하고 있다고 밝혔다.

넷째 인간에 의한 통제. 오픈AI의 AI 정합성 접근 방식은 인간 중심이며 인간 이해관계자가 복잡한 상황에서도 AI를 효과적으로 감독할 수 있는 메커니즘 개발을 목표로 하고 있다. 이를 위해 AI 훈련에 일반 시민과 이해관계자 피드백을 반영한 정책을 도입하거나 미세한 뉘앙스와 문화를 AI 모델에 반영하며 자율적인 환경에서도 필요에 따라 인간이 개입할 수 있도록 하는 게 중요하다.

5번째 커뮤니티 노력. AGI가 안전하고 모든 사람에게 유익하다는 걸 보장하려면 단일 조직만으로는 부족하며 산업계, 학계, 정부, 일반 시민 간의 열린 협력이 필요하다. 이를 위해 오픈AI는 안전성 연구 성과를 발표하고 현장에 자원과 자금을 제공하며 안전성 확보를 위해 자발적으로 노력할 것이라고 밝혔다.

오픈AI는 자사가 모든 답을 알고 있는 건 아니며 모든 의문을 가지고 있는 것도 아니라면서 알지 못하기 때문에 진보가 어떻게 전개될 것인지에 대한 예측이나 직면하는 과제에 대한 접근 방식이 잘못될 수 있음을 수용한다고 밝히고 건전한 논의 문화를 믿으며 AI 위험에 대한 다양한 관점과 생각을 가진 이들 그 중에서도 오픈AI 현재 입장에 동의하지 않는 이들로부터의 피드백을 요청한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.