Token 是模型处理文本的基本单位

2 min read

Token 是模型处理文本的基本单位,它可以是一个单词,一个部分单词,或者一个标点符号。Tokenization 是将文本分割成 Token 的过程,它是自然语言处理的一个基本步骤,对于理解文本的含义很重要。Token 的数量可以用来计量文本的长度,也可以用来限制模型生成的文本的长度。

Tokenization 可以分为不同的类型,比如单词,字符,或者子词。下面是一个单词 Tokenization 的例子:

输入:今天天气很好,我想去公园玩。

输出:['今天', '天气', '很', '好', ',', '我', '想', '去', '公园', '玩', '。']

这里,每个单词或者标点符号都是一个 Token,它们可以用来表示文本的含义和结构。