테크레시피

아마존, 깃허브 스크래핑해 AI 모델 학습에 활용?

AI 모델 품질을 높이려면 대량 고품질 데이터 세트가 필요하다. 그런데 아마존이 AI 개발을 위해 2018년부터 마이크로소프트 산하 소프트웨어 개발 플랫폼인 깃허브에서 코딩 데이터를 수집하고 있다고 보도됐다.

보도에서 입수한 아마존 내부 메모에 따르면 동사 범용인공지능(AGI) 개발 그룹은 AI 학습을 위해 깃허브 양적‧질적 메타 데이터가 필요하다고 주장했다고 한다. 하지만 깃허브에는 데이터 스크래핑 제한이 있어 1계정당 1시간에 5,000회 요청만 처리할 수 있다. 깃허브에는 2023년 말까지 1억 5,000만 개 이상 공개 저장소가 있기 때문에 스크래핑 제한을 따르면서 데이터를 수집하려면 수년이 걸린다.

이에 따라 아마존은 직원에게 여러 깃허브 계정을 만들게 해 수년이 걸리는 데이터 수집 작업을 수주 만에 단축했다고 보도됐다. 보도에 따르면 이런 아마존 측 행위는 법적으로 절도에 해당하지는 않지만 데이터 프라이버시, 플랫폼 리소스의 적절한 사용에 대한 윤리적 우려를 불러일으킬 수 있다고 한다. 입수한 내부 메모에는 직원이 법률과 보안 가이드라인을 준수하면서 여러 계정으로 데이터를 수집할 수 있도록 계정 생성‧관리 방법에 대한 자세한 지침이 포함되어 있다고 한다.

보도에선 아마존이 깃허브 스크래핑에 착수한 이유에 대해 아마존이 필요한 건 무수한 코드만이 아니라며 프로젝트가 시간이 지남에 따라 어떻게 변화하는지, 누가 기여하는지, 개발자가 어떻게 협력하는지 등 귀중한 세부 정보가 깃허브 데이터에 포함되어 있다고 지적했다. 이 메타데이터는 AI 모델이 패턴을 학습하고 정확도를 높이며 문제를 해결하는 더 나은 방식을 개발하는 데 필수적이라는 설명이다.

아마존 측은 여러 계정으로 스크래핑하는 접근 방식이 법무‧보안팀 승인을 받았다고 주장하고 있다. 하지만 깃허브나 영향을 받는 사용자 스스로가 이를 위반으로 인식한다면 아마존 행위가 문제시될 수 있다.

커뮤니티에서도 이 문제가 화제가 됐는데 일부에서는 마이크로소프트가 자회사 깃허브에서 경쟁 기업 아마존 데이터 수집을 꺼려 규정을 강화할 수도 있지만 법적 대응까지는 하지 않을 것이라는 의견을 내놨다. 반면 깃허브 이용약관에 제한을 회피할 목적으로 API 키를 공유할 수 없으며 개인 또는 조직당 무료 계정은 1개만 허용된다고 명시되어 있어 아마존 측 행위가 규약 위반에 해당한다는 지적도 있다. 하지만 이 규약은 무료 계정에 관한 내용이며 아마존이 실시하고 있는 방식에 대한 세부사항은 아직 확실치 않아 문제 여부를 가늠하기 어렵다. 한편으로는 깃허브에 코드를 공개하는 건 다른 사용자를 위한 것이지 대기업을 위한 것이 아니라며 개인 사용자 입장에서 분노를 표하는 목소리도 많이 나왔다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독