소프트웨어 개발 플랫폼인 깃허브는 2022년 6월 프로그래머가 쓰고 싶은 코드를 자동으로 보완해주는 서비스인 깃허브 코파일럿(GitHub Copilot)을 공개한 바 있다. 깃허브 코파일럿은 성공적으로 개발해 개발 속도를 크게 높여줄 것으로 기대되고 있지만 텍사스A&M대학 컴퓨터사이언스 교수인 팀 데이비스는 깃허브 코파일럿이 자신이 작성한 저작권으로 보호되는 코드를 출력하고 있다고 지적한다.
깃허브 코파일럿은 소스 코드를 도중까지 기술하면 자동 보완해주거나 코멘트로 로직을 기술하면 코드로 변환해주는 서비스다. 광범위한 프레임워크와 프로그래밍 언어 수십 개에 대응하며 그 중에서도 파이썬, 자바스크립트, 타입스크립트, 루비와 Go에서 효과적으로 작동한다.
자동 완성된 코드는 반드시 모범 사례를 따르는 건 아니며 코드 베이스가 사용되는 버전에선 작동하지 않는 코드를 생성하거나 불필요한 코드를 출력할 수도 있다고 한다. 따라서 깃허브 코파일럿이 인간 개발자를 완전히 대체한다고는 생각하기 어렵지만 경험을 쌓은 프로그래머가 보조로 사용하는데 보조로 사용하는데 유용하다고 한다.
한편 깃허브 코파일럿은 라이선스를 불문하고 깃허브상 모든 소스 코드를 바탕으로 학습했다는 것으로 저작권적으로 문제가 있는 건 아니겠냐는 지적도 되고 있다. 이런 가운데 데비이스 교수는 실제로 깃허브 코파일럿을 사용해 자신이 쓴 저작권으로 보호된 코드가 출력된 실례를 들었다. 이에 따르면 깃허브 코파일럿이 출력한 코드는 데비이스 교수가 작성한 코드와 상당 부분이 동일하다.
또 함수명을 붙이지 않고 데이비스 교수가 명명한 프롬프트를 입력하는 실험도 실시했다. 그 결과 깃허브 코파일럿은 데비이스 교수 코드를 조금 미세 조정한 버전을 출력해왔다고 한다. 그는 깃허브 AI가 이게 자신의 코드라는 걸 알고 있다고 지적하고 있다.
덧붙여 이번 문제로 여겨지는 코드 자체는 LGPL 라이선스로 공개되고 있기 때문에 입수, 사용, 변경, 상용 이용 등이 가능하고 구글 스트리트뷰나 우주 개발 등 소프트웨어 개발에도 이용되고 있다고 한다. 하지만 깃허브 코파일럿에서 출력된 코드에는 저작권 표시가 없으며 임베디드해 사용하는 경우에도 LGPL 라이선스로 재배포되지 않을 가능성이 있다는 문제가 있다.
또 깃허브 코파일럿 프로젝트팀 측도 이번 지적에 대해 반응했다. 편집기 인접 파일에서 인용됐거나 공개 리포지토리에 자주 나타난다며 코드는 패턴화되고 출력되기 쉬운 걸 설명하며 비슷한 코드가 자동화 제안에 표시되는 건 우려해야 할 일이라는 걸 이해하며 개발팀도 배우는 중이라고 밝혔다. 이번 지적에는 확실히 AI 기술은 훌륭하지만 이런 모델을 라이선스에 관계없이 동의조차 얻지 못한 데이터로 훈련하는 것에는 찬성할 수 없다는 코멘트가 나온다. 관련 내용은 이곳에서 확인할 수 있다.