테크레시피

무료 데이터세트 레이온 이끄는 건 고교 교사

레이온(LAION)은 이미지 생성 AI인 스테이블 디퓨전이 사용하는 것으로도 알려져 있는 제너레이티브 AI 학습용 데이터세트를 구축하는 비영리 단체다. 이런 레이온 리더를 맡고 있는 건 독일 함부르크에서 고교 교사로 근무하는 크리스토프 슈만이다.

그는 비엔나대학에서 컴퓨터과학과 물리학을 공부하면서 워크숍에서 6년간 연기를 배우고 졸업 이후 함부르크시에서 IT 관리자와 교사로 일하면서 아이를 위한 영화 촬영 워크숍에 참가했다.

이런 슈만이 레이온 설립에 관여한 건 AI 애호가를 위한 디스코드 서버에 참가한 게 계기였다. 당시 AI 개발 단체인 오픈AI가 달리라는 이미지 생성용 확산 모델을 개발하고 있었지만 슈만은 대형 기술 기업이 데이터를 점유하게 될 걸 우려하고 있었다고 한다.

따라서 그는 디스코드 서버 동료와 함께 확산 모델 학습에 도움이 되는 오픈소스 데이터세트를 만드는 프로젝트(Large-scale AI Open Network)를 시작했다. 이미지 데이터세트는 단순히 이미지를 묶은 게 아니라 이미지에 뭐가 찍혀 있는지 설명하는 주석이 필요하다. 슈만은 캘리포니아 비영리단체 커먼크로울(Common Crawl)이 수집한 HTML 코드를 이용해 인터넷상 이미지를 찾아내 설명 텍스트를 연결하는 작업을 했다. 그 결과 그는 불과 몇 주 만에 300만 건 화상과 텍스트 세트를 모으는데 성공했다. 또 3개월 뒤에는 4억개 이미지와 텍스트 쌍을 포함한 데이터세트를 출시할 수 있었다. 현재 50억 건이 넘는 이미지와 텍스트를 포함한 LAION-5B도 릴리스되어 무료로 쓸 수 있는 데이터세트로는 최대 규모다. 또 레이온은 이미지 인식 모델 CLIP과 벤치마크 같은 도구도 공개하고 있다.

레이온 데이터세트에 포함된 이미지와 링크 대부분은 핀터레스트, 쇼피파이, AWS 비주얼 데이터, 유튜브 섬네일, 데비안아트에 올라온 포트폴리오, 뉴스 사이트 사진, 미 국방부 등 정부 웹사이트 이미지 등 인터넷상에 있는 것이다. 따라서 레이온이 수집한 일부 이미지와 링크에는 폭력적, 차별적, 성적 콘텐츠가 포함될 수 있다.

슈만은 레이온 데이터세트를 구축하기 전 변호사와 상담해 불법 콘텐츠를 필터링하는 자동 툴을 실행했다고 한다. 또 문제가 있는 콘텐츠가 통지되면 곧바로 해당 콘텐츠를 삭제하고 있다. 하지만 그는 데이터세트를 완벽하게 필터링하는 것보다 데이터세트에서 학습할 수 있다는 것에 더 관심이 있다고 밝혔다. 또 데이터에 포함된 폭력성 콘텐츠가 폭력 탐지 소프트웨어 개발을 가속화하기 때문에 필터링하지 않기로 결정헸다고 한다.

2021년 7월 레이온은 비영리단체가 됐고 슈만은 리더로 취임했다. 레이온 앞으로 연락을 하면 슈만이 응대하며 함부르크 교외에 위치한 그의 자택 우편 접수처에는 레이온이라는 종이가 붙어 있다고 한다.

물론 데이터세트를 만드는 건 완전 무보수이며 모든 이가 무급으로 일하고 있다. 따라서 레이온은 2021년 AI를 위한 온라인 저장소를 제공하는 허깅페이스에서 한 차례 기부를 받았다. 스태빌리티AI CEO는 디스코트 채팅에 대한 계산 비용 부담을 제기했고 오픈소스 제너레이티브 AI 사업을 시작하기를 원하며 AI 학습에 레이온을 사용하고 싶어 했다. 스태빌리티AI는 2022년 8월 레이온 데이터세트로 학습한 스테이블 디퓨전을 릴리스했고 스태빌리티AI는 현재 40억 달러 기업 가치로 평가받고 있다. 슈만은 자신이 레이온으로부터 보상을 일절 받지 못하고 있지만 그는 여전히 고등학교 교사라며 독립된 상태를 유지하고 싶어 모든 종류 기업에서 구인을 거부했다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular