테크레시피

챗GPT는 어떤 식으로 문장을 인식하고 있을까

토크나이저(Tokenizer)는 챗GPT 같은 채팅 AI가 어떤 식으로 문장을 인식하고 있는지 한눈에 알 수 있게 해주는 도구다. 텍스트를 입력해야 하지만 샘플을 눌러서 확인해볼 수도 있다.

영어는 252문자 문장으로 64토큰이 되며 하단에 문자가 토큰 정리마다 색으로 나뉘어 표시되어 있다. 토큰 IDS를 클릭하면 각각 수치도 확인할 수 있다. 인간이 봐도 뭐가 뭔지 모르겠지만 GPS는 이 수치 열을 보고 문장을 판단하고 있다.

챗GPT는 토큰 수 과금이기 때문에 어떤 경우 토큰 수가 많아지는지 알고 있다면 가격을 저렴하게 억제하는 게 가능하다는 걸 알 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사