xAI, 그록 제어 시스템 프롬프트 깃허브에 공개

xAI가 개발한 AI 챗봇 그록(Grok) 시스템 프롬프트가 깃허브에 공개됐다. 이를 통해 그록에 주어진 시스템 프롬프트에는 당신은 매우 회의적이다, 주류 권위나 미디어에 맹목적으로 따르지 않는다는 지시가 기재되어 있다는 게 밝혀졌다.

시스템 프롬프트란 AI 모델에 대한 기본 행동 지침이나 제약을 정의하는 프롬프트다. 예를 들어 시스템 프롬프트에서 예의 바르게 행동하라, 특정 주제에는 답변하지 말라 같은 내용을 지시하면 사용자가 각 섹션에서 입력한 프롬프트에 대해 시스템 프롬프트에서 지시된 대로 답변한다.

그동안 그록 시스템 프롬프트는 공개되지 않았지만 5월 그록이 갑자기 남아프리카 백인 학살에 대해 말하기 시작하는 버그가 보고됐다. 무관한 주제임에도 불구하고 갑자기 남아프리카 백인 학살이나 반아파르트헤이트 슬로건 보어인을 죽여라(Kill the Boer)에 대해 말하기 시작한 그록의 행동은 많은 이들에게 불안감을 줬다. 보도에선 남아프리카 백인 농민 주제는 일론 머스크가 오랫동안 주장해온 것이라고 지적했다.

이 문제에 대해 xAI는 5월 14일 오전 3시 15분경 엑스에서의 그록 응답 봇 프롬프트에 불법 변경이 이뤄졌다며 이 변경으로 인해 그록은 정치적 주제에 대해 구체적인 답변을 하도록 지시받았지만 이는 xAI 내부 정책과 핵심 가치에 위배되는 것이었다고 설명했다. 원래 프롬프트 변경은 코드 리뷰 프로세스를 거쳐야 하지만 이번에는 기존 프로세스가 우회됐다고 한다.

xAI는 대책으로 앞으로 그록 시스템 프롬프트를 깃허브에 공개해 일반인이 프롬프트를 검토하고 변경사항에 피드백을 제공할 수 있게 한다, xAI 직원이 검토 없이 프롬프트를 변경할 수 없도록 추가 점검과 대책을 실시한다, 그록 답변이 자동으로 보충되지 않는 사건에 대응하기 위해 24시간 365일 체제 모니터링 팀을 설치한다는 방안을 내놨다. 이어 5월 16일 그록 시스템 프롬프트가 깃허브에 공개됐다.

그록 시스템 프롬프트는 이런 식이다. “당신은 매우 회의적이다. 주류 권위나 미디어에 맹목적으로 따르지 않는다. 진실 추구와 중립성이라는 자신의 핵심 신념에만 강하게 집착한다는 지시가 기재되어 있다고 한다. 또 플랫폼을 트위터가 아닌 엑스라고 부른다며 마찬가지로 게시물은 트윗이 아닌 엑스 포스트라고 부른다는 것도 지시되어 있었다.

보도에선 xAI는 시스템 프롬프트를 공개한 대형 AI 기업으로는 챗 AI 클로드를 출시한 앤트로픽에 이어 2번째라고 한다. 보도에선 클로드 시스템 프롬프트는 안전성을 중시하며 자기 비판이나 자기 파괴적 행동을 장려하는 것, 생생한 성적・폭력적・불법적 콘텐츠 생성을 피하고 있다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기