테크레시피

스테이블 디퓨전 개발 등에 공헌한 초거대 데이터세트

AI를 구축하려면 알고리즘 뿐 아니라 학습용 데이터세트도 중요하며 데이터세트 품질에 따라 AI 정밀도도 크게 좌우된다. 고정밀 이미지 생성 AI로 화제를 모으는 스테이블 디퓨전(Stable Diffusion)에선 LAION-5B라는 50억 개 이상 이미지와 텍스트 페어를 포함한 데이터세트를 이용하고 있다.

LAION(Large-scale Artificial Intelligence Open Network)이라는 독일 비영리단체는 2022년 3월 초거대 데이터세트인 LAION-5B를 릴리스했다. LAION-5B 작성에는 기계학습 커뮤니티인 허깅페이스(Hugging Face), AI 개발 기업인 두들봇(doodlebot), 스테이블 디퓨전을 개발한 스태빌리티AI(Stability.ai)가 컴퓨팅 리소스를 제공했다.

LAION-5B는 이미지 분류 모델 CLIP에서 필러팅된 58억 5,000만 개 이미지와 텍스트 조합으로 구성되며 이 가운데 23억쌍이 이미지와 영어 텍스트 쌍이며 22억쌍은 이미지와 100개가 넘는 비영어 텍스트쌍, 나머지 10억쌍은 이미지와 특정 언어로 제한되지 않는 텍스트쌍이다.

LAION 연구팀은 수십억 개 이미지와 텍스트쌍으로 학습된 대규모 이미지 텍스트 모델은 높은 성능을 보였지만 이 규모 교육용 데이터세트는 일반적으로 이용할 수 없었다고 지적한다. 이 문제를 해결하기 위해 LAION은 대규모 이미지와 텍스트쌍 데이터세트를 만들고 게시하기로 했다고 한다.

LAION은 데이터세트 작성 배경에 있는 동기는 대규모 멀티모달 모델 교육과 공개된 인터넷에서 크롤링된 큐레이션되지 않은 대규모 데이터세트 처리에 관한 연구와 실험을 민주화하는 것이라고 밝히고 있다.

이미지와 텍스트쌍을 만들 때 LAION은 인터넷상 데이터를 제공하는 공통 크롤링 파일을 구문 분석하고 텍스트와 이미지쌍을 선택하고 CLIP을 이용해 유사성이 높은 이미지와 텍스트쌍을 추출했다. 또 너무 짧은 텍스트나 해상도가 너무 큰 이미지, 중복 데이터, 불법 콘텐츠 등을 가능하면 삭제하고 최종적으로 58억 5,000만 이미지와 텍스쌍으로 이뤄진 샘플이 남았다고 한다.

LAION은 데이터세트로 사용할 때의 쾌적성을 높이기 위해 다운로드용 라이브러리나 탐색, 서브 세트 작성용 웹인터페이스, 검새 툴 등을 준비한 것 외에 워터마크가 있는 이미지나 NSFW 데이터를 제외한다는 태그도 설치했다. LAION은 워터마크 이미지는 달리나 GLIDE 같은 이미지 생성 모델을 학습할 때 큰 문제가 된다며 이를 위해 모든 이미지에 대한 신뢰도 점수를 계산했다고 밝히고 있다.

LAION-5B에 포함되는 데이터 가운데 영어 데이터세트에 대해 이미지 가로폭과 세로폭, 텍스트 문자수 비율을 보면 가로와 세로폭은 128∼1024픽셀이 80% 이상을 차지하고 있으며 텍스트 문자수는 100문자 이하가 80% 이상이다. 또 안전하지 않은 데이터 비율은 2.9%, 워터마크가 들어간 이미지 비율은 6.1%라고 한다. 비영어 데이터세트의 경우에도 전체 경향은 비슷하다. 이 데이터세트에선 안전하지 않은 데이터 비율은 3.3%이며 워터마크가 포함된 이미지 비율은 5.6%다.

언어로 분류할 수 없는 데이터세트의 경우 데이터 비율은 3%이며 워터마크가 있는 이미지 비율은 4%다. 데이터세트는 크리에이티브 커먼즈 BY 4.0 라이선스로 무료공개되지만 이미지는 저작권으로 보호된다고 한다.

LAION은 LAION-5B 주의점으로 큐레이션되지 않은 데이터세트라는 성격상 불쾌한 콘텐츠를 포함하고 있을 가능성이 있다고 경고하고 있다. 안전 태그에 근거해 어느 정도 불쾌한 콘텐츠를 뺄 수 있지만 이후에도 자재적으로 유해한 콘텐츠를 만날 수 있다는 것. 안전성에 대한 기초 연구는 아직 진행 중인 만큼 곧바로 사용할 수 있는 상업용 제품을 만드는데 사용하지 않는 게 좋다고 밝히고 있다.

출시 이후 LAION-5B는 스테이블 디퓨전 개발에도 사용되는 등 AI 업계에 크게 기여했지만 데이터세트에 어딘가에서 유출된 의료용 이미지가 포함되어 있는 문제가 지적되기도 했다. 또 자신의 작품이 데이터세트에서 사용되고 있는지 검색할 수 있는 툴(Have I Been Trained?)도 등장했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular