테크레시피

구글 PaLM 2 기술 보고서 “중요 정보는 빠졌다”

구글은 글 I/O 2023 기간 중 GPT-4와 경쟁할 대규모 언어 모델인 PaLM 2를 발표하는 동시에 PaLM 2 기술 보고서도 공개했다. 하지만 학습 데이터 수집과 학습에서 하드웨어 설정과 같은 중요한 정보는 공개되지 않았다.

PaLM 2 기술 보고서는 모두 92페이지에 이르고 있지만 그 중에서 학습에 이용한 데이터에 대해서 설명하는 건 반 페이지 뿐이다. 반 페이지에 따르면 PaLM 2 학습 데이터에는 웹 문서, 책, 코드, 수식, 회화 문장이 포함되어 있으며 PaLM을 학습했을 때와 비교해 더 큰 규모로 이와 동시에 영어 이외 언어 비율이 증가하고 있지만 구체적으로 어떻게 수집한 어떤 데이터를 이용했는지에 대해선 기재되어 있지 않다.

데이터를 숨기고 있는 건 구글 만은 아니다. PaLM 2와 경쟁하는 GPT-4 기술 보고서에서도 GPT-4를 개발한 오픈AI는 GPT-4와 같은 대규모 모델 경쟁 환경과 안전성을 모두 고려해 이 보고서의 모델 크기를 포함한 아키텍처, 하드웨어, 학습 계산, 데이터세트 구축, 학습 방법 등에 대한 추가 세부 정보는 포함하지 않는 경향이 계속되고 있다.

이런 정보 은닉에 대해 보도에선 모델 상세 정보가 기업 존속을 좌우할 만큼 중요하게 되어 정보를 오픈하는 시대는 끝났다고 지적한다. 그럼에도 불구하고 모든 정보가 숨겨져 있는 건 아니며 PaLM 2 기술 보고서에서 컴퓨팅 볼륨과 모델 크기, 학습에 이용되는 데이터량 최적 관계, 프라이버시 보호에 대한 노력, 인간 종 차별 등 유해 응답 출현량에 대한 조사 등이 해설되어 있다. 이 보고서는 계산량이 증가함에 따라 모델 크기와 학습 데이터량을 동일 비율로 증가시키는 게 가장 효율적인 학습을 제공한다고 밝히고 있다.

프라이버시 보호 관점에서 PaLM 2에선 학습 문언과 완전히 같은 단어가 생성된다는 축어 기억(verbatim memorization) 발생량이 PaLM에 비해 감소했다고 한다. 학습 데이터에 포함되는 비율이 작은 언어에서도 축어 기억이 발생하기 어려워졌다고 기재되어 있다.

하지만 기술 보고서는 다양한 언에 걸친 해로운 반응과 관련해 여전히 해야 할 일이 남아 있다는 걸 밝히고 있다. 예를 들어 유해 프롬프트가 주어지면 PaLM 2는 30% 이상 확률로 유해 반응을 생성하거나 영어, 독일어, 포르투갈어 같은 특정 언어에서 인종 정체성, 종교 등 프롬프트로 인해 PaLM 2는 17% 이상 확률로 유해 반응을 나타내는 결과가 되기도 했다. 또 PaLM 2와의 상호 작용을 실제로 시도해보려면 구글 AI 채팅 서비스인 바드를 사용하면 된다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사