테크레시피

깃허브 코파일럿이 오픈소스 커뮤니티 파괴할 위험?

지난 6월 공개된 코드 완성 서비스인 깃허브 코파일럿(GitHub Copilot)은 프로그래머가 작성하려는 코드를 제안해 소프트웨어 개발을 가속화할 것으로 기대되고 있다. 하지만 저작권으로 보호된 코드를 제안하는 문제점도 지적된다. 그런데 새롭게 오픈소스 개발자이자 변호사인 매튜 버터릭이 깃허브 코파일럿은 저작권 문제를 일으킬 뿐 아니라 오픈소스 소프트웨어 커뮤니티를 파괴할 위험이 있다고 주장해 눈길을 끈다.

소프트웨어 개발 플랫폼 깃허브를 소유하는 마이크로소프트와 인공지능 개발 조직 오픈AI가 협력해 개발한 깃허브 코파일럿은 도중까지 쓴 코드를 보완하거나 코멘트에 따라 코드를 작성해 주는 서비스다. 하지만 학습 데이터에 이용한 코드 저작권을 침해하고 있다고 지적하는 목소리도 나오고 있다. 지난 10월 17일 버터릭은 깃허브 코파일럿 조사라는 제목으로 글을 올려 한 뉴욕 법률 사무소와 협력해 깃허브 코파일럿에 대한 소송 가능성에 대해 조사 중이라고 보고했다.

깃허브 코파일럿은 오픈AI가 개발한 코드 생성 AI 모델인 코덱스(Codex)를 이용한 서비스다. 오픈AI는 코덱스를 수천만 개 공개 리포지토리로 학습했다고 설명하고 있다. 여기에서 버터릭이 문제로 삼는 건 깃허브에서 공개된 오픈소스 소프트웨어 라이선스다. 보통 오픈소스 소프트웨어를 사용하는 개발자는 라이선스에 부과된 의무를 준수하거나 저작권법에 따라 공정 사용으로 코드 사용 중 하나를 따라야 한다. 대부분 오픈소스 소프트웨어는 이게 어디에 속하는지 공개하도록 의무화하고 있지만 깃허브 코파일럿에서 훈련에 사용된 소프트웨어 귀속은 밝혀지지 않았다. 따라서 마이크로소프트와 오픈AI는 깃허브 코파일럿 교육에서 오픈소스 소프트웨어를 사용하는 건 공정 사용이라고 주장한다.

확실히 AI 훈련에 저작권으로 보호된 콘텐츠를 사용하는 건 페어유스가 된다는 주장이 일반적으로 퍼지고 있지만 이를 지지하는 법적인 뒷받침은 존재하지 않는다고 한다. 디지털 권리 단체인 SFC(Software Freedom Conservancy)는 AI 훈련에서 데이터 사용이 페어유스가 되는 법적 뒷받침에 대해 마이크로소프트와 깃허브에 문의했지만 응답은 없었다고 보고하고 있다.

이 문제에 대해 버터릭은 지금까지 AI 훈련에서 페어유스를 정면에서 취급한 미국 소송은 없었고 만일 AI 학습에서의 콘텐츠 사용이 페어유스로 판정됐다고 해도 페어유스는 여러 요인 균형을 잡는 섬세한 것이기 때문에 다른 AI에서도 마찬가지로 페어유스가 인정되는지 여부는 불투명하다고 지적했다.

더 문제가 되는 건 마이크로소프트와 오픈AI에 의한 깃허브 코파일럿 개발에 대해 페어유스가 인정됐다고 해도 이게 깃허브 코파일럿을 사용하는 사용자에게 적용되는 건 아니라는 점이다. 마이크로소프트는 깃허브 코파일럿이 출력하는 코드를 제안(suggestions)이라고 부르고 있지만 마이크로소프트는 이 코드의 정확성과 안전성, 지적 소유권에 대해선 보증하지 않는다.

깃허브 코파일럿 사용에 관한 공식 문서에는 코드 보안과 품질을 확보하는 건 사용자 책임이다. 깃허브 코파일럿에서 생성된 코드를 사용할 때에는 직접 작성하지 않은 코드를 사용할 때 동일 예방 조치를 취하는 게 좋다. 여기에는 엄격한 테스트, 지적재산권 검색, 보안 취약성 추적이 포함된다. 이 문장은 깃허브 코파일럿에서 출력되는 코드에 대해 저작권 문제가 발생할 가능성을 마이크로소프트가 인식하고 있다는 걸 시사한다.

다시 말해 깃허브 코파일럿을 이용해 오픈소스 소프트웨어 코드가 생성되면 사용자가 이 코드를 사용할 때 라이선스 의무를 준수할 책임이 있다. 하지만 깃허브 코파일럿을 이용해 코드를 생성하면 해당 코드 출처에 대한 정보는 제공되지 않는다. 이 때문에 사용자는 코드 라이선스 내용은 커녕 라이선스 존재조차 눈치 채지 못하고 소송 위험이 생길 가능성이 있다고 한다.

버터릭은 깃허브 코파일럿은 오픈소스 코드 대규모 코퍼스를 검색하는 편리한 대체 인터페이스일 뿐이라며 따라서 깃허브 코파일럿 사용자는 기본 코드 작성자에게 라이선스 의무가 있다고 말한다. 깃허브 전 CEO는 깃허브 코파일럿이 컴파일러와 같다고 주장하지만 복잡한 지적재산권 문제가 발생할 수 있는 이상 코드를 단순히 변환한다며 단지 컴파일러와 깃허브 코파일럿을 함께 할 수 없다고 지적했다.

더구나 버터릭은 깃허브 코파일럿의 출력한 코드 개발자와 개발 커뮤니티 정보를 모르게 된다는 성질로 인해 사용자가 오픈소스 커뮤니티에 액세스할 수 없게 된다는 점을 문제시하고 있다며 마이크로소프트는 프로그래머가 기존 오픈소스 커뮤니티를 발견하는 걸 방해하는 새로운 벽이 있는 정원을 만들려 한다며 적어도 오픈소스 커뮤니티를 찾는 동기 부여를 제거할 것이라고 말한다.

오픈소스 소프트웨어의 장점은 다양한 사용자, 테스터, 기여자로 이뤄진 커뮤니티가 형성되어 많은 사람이 협력해 소프트웨어를 개선할 수 있다는 것이다. 이런 커뮤니티는 개발자가 이런 소프트웨어가 있으면 좋겠다고 생각하고 인터넷상을 찾아 커뮤니티에 도착하는 것으로 형성된다며 하지만 깃허브 코파일럿을 통해 원하는 코드를 곧바로 얻을 수 있게 되면 사용자가 오픈소스 커뮤니티에 가입할 이유가 사라져 커뮤니티가 쇠퇴해버릴 위험이 있다는 것.

이 상화엥 대해 버터릭은 오픈소스 개발자가 깃허브 코파일럿이라는 서비스를 향상시키기 위한 자원 생산자일 뿐이라고 주장한다. 더구나 농장 암소조차도 거래에서 먹이와 안전한 장소를 얻을 수 있다며 깃허브 코파일럿은 개별 프로젝트에 기여하지 않으며 오픈소스 커뮤니티에 치명적 영향을 미칠 것이라고 비난하고 있다.

버터릭은 AI 지원 코딩 툴 전반을 비판하고 있는 게 아니라 마이크로소프트와 깃허브 코파일럿이 취한 수단을 문제로 하고 있다며 마이크로소프트는 허가를 얻은 오픈소스 소프트웨어만을 훈련 데이터에 사용하고 훈련 데이터에 사용한 코드 개발자에게 보상을 지불하는 등 오픈소스 커뮤니티에 친절한 방식으로 것허브 코파일럿을 개발할 수 없었을 것이라고 지적하고 있다. 또 깃허브 코파일럿 정확도는 교육 데이터에 사용되는 오픈소스 소프트웨어 품질에 따라 다르지만 깃허브 코파일럿 침투로 오픈소스 커뮤니티가 파괴되면 향후 버전에서 깃허브 코파일럿 품질이 크게 떨어질 우려도 있다고 한다.

결국 오픈소스 커뮤니티는 고정된 사람으로 이뤄진 집단이 아니다. 끊임없이 성장하고 변화하는 지속적인 지식이며 신선한 두뇌에 의해 끊임없이 업데이트된다. 이에 따라 깃허브 코파일럿의 합법성은 오픈소스에 대한 손상이 치명적이 되기 전에 테스트를 해야 한다며 법적 수단을 준비하고 있다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독