테크레시피

챗GPT는 어떤 식으로 문장을 인식하고 있을까

토크나이저(Tokenizer)는 챗GPT 같은 채팅 AI가 어떤 식으로 문장을 인식하고 있는지 한눈에 알 수 있게 해주는 도구다. 텍스트를 입력해야 하지만 샘플을 눌러서 확인해볼 수도 있다.

영어는 252문자 문장으로 64토큰이 되며 하단에 문자가 토큰 정리마다 색으로 나뉘어 표시되어 있다. 토큰 IDS를 클릭하면 각각 수치도 확인할 수 있다. 인간이 봐도 뭐가 뭔지 모르겠지만 GPS는 이 수치 열을 보고 문장을 판단하고 있다.

챗GPT는 토큰 수 과금이기 때문에 어떤 경우 토큰 수가 많아지는지 알고 있다면 가격을 저렴하게 억제하는 게 가능하다는 걸 알 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독