Token 是模型处理文本的基本单位

Token 是模型处理文本的基本单位，它可以是一个单词，一个部分单词，或者一个标点符号。Tokenization 是将文本分割成 Token 的过程，它是自然语言处理的一个基本步骤，对于理解文本的含义很重要。Token 的数量可以用来计量文本的长度，也可以用来限制模型生成的文本的长度。

Tokenization 可以分为不同的类型，比如单词，字符，或者子词。下面是一个单词 Tokenization 的例子：

输入：今天天气很好，我想去公园玩。

输出：['今天', '天气', '很', '好', '，', '我', '想', '去', '公园', '玩', '。']

这里，每个单词或者标点符号都是一个 Token，它们可以用来表示文本的含义和结构。