테크레시피

AI 프로그래밍 ‘깃허브 코파일럿’ 속 금지어

깃허브가 지난 6월 발표한 함수명과 댓글로 함수 코드를 통째로 자동 완성하는 AI 프로그래밍 기능인 깃허브 코파일럿(GitHub Copilot)에선 단어 1,170개가 금지되어 잇다는 연구 결과가 발표됐다. 금지어 중에는 교양, 팔레스타인, 사회주의자 등 논란을 초래할 수 있는 단어 뿐 아니라 FPS 게임 고전 걸작인 퀘이크3 아레나(Quake 3 Arena) 기능까지 포함하고 있다.

지난 6월 깃허브는 인공지능 연구 조직인 오픈에이아이(OpenAI)와 AI 자동 완성 기능인 깃허브 코파일럿을 발표했다. 이번에 이런 깃허브 코파일럿에 1,170개 단어를 금지하고 있다는 연구 결과가 공개된 것. 이 연구를 수행한 뉴욕대학 연구팀에 따르면 깃허브 코파일럿은 출력하는 텍스트 해시값을 조합해 비방이나 차별적인 표현이 표시되는 걸 방지하는 기능이 내재되어 있다. 이 기능에 대해 조사를 진행한 연구팀은 비주얼 스튜디오 코드와 연결해 자동 완성 기능을 제공하는 깃허브 코파일럿 확장에 주목하고 이 확장 기능을 자바스크립트로 배포 금지하는 단어 해시값 1,170개를 획득했다.

연구팀은 해시값 1,170개 가운데 1,168개에서 금지된 단어를 특정하는데 성공했다. 금지된 건 팔레스타인 가자, 공산주의자, 파시스트, 사회주의자, 나치, 이민, 인종, 남자, 여자, 소년, 소녀, 자유, BLM, 히틀러, 민족, 게이, 레즈비언, 트랜스젠더 같은 단어와 해당 단어 복수형이었다.

특정된 단어 1,168개는 공개되어 있지만 검색 방지를 위해 모든 단어가 ROT13 암호화되어 있다. 금지된 단어 대부분은 차별적 표현이나 논란을 줄 맥락에서 사용되는 것이지만 FPS 게임 고전 걸작 중 하나인 퀘이크 3 아레나에서 고속 역제곱근 게산에 사용되는 알고리즘 q rsqrt 함수도 포함되어 있다고 한다.

사실 깃허브 코파일럿 출시 직후에는 q rsqrt 자동 완성에도 대응해 저작권에 문제가 있다는 비판이 화제를 모은 바 있다. 따라서 q rsqrt 비판 이후 금지어로 들어간 것으로 보인다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사