GPT 是如何工作的：200 行 Python 代码实现一个极简 GPT（2023）

本文是arthurchiao整理和翻译自 2023 年 Andrej Karpathy 的 twitter 和一篇文章： GPT as a finite-state markov chain。

本文实际上是基于 PyTorch，并不是完全只用基础 Python 包实现一个 GPT。主要目的是为了能让大家对 GPT 这样一个复杂系统的（不那么底层的）内部工作机制有个直观理解。

GPT（Generative Pre-trained Transformer）是一个由 Transformer 构建的神经网络模型，可以生成自然语言文本。具体来说，它是一个条件语言模型，给定一些输入文本，它可以预测接下来的文本序列。

GPT 的核心是一个 Transformer 模型，包括多个自注意力层和前馈神经网络层。在训练过程中，GPT 通过学习一个大规模的语言模型来捕捉自然语言中的语法和语义，从而能够生成流畅、连贯的文本。

下面是一个简化的 Python 代码示例，展示了如何使用 PyTorch 和 Transformers 库构建一个基于 GPT 的文本生成器。

首先，我们需要安装 PyTorch 和 Transformers 库：

!pip install torch
!pip install transformers

接下来，我们定义一个 GPT 生成器类：

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel

class GPTGenerator:
    def __init__(self, model_name='gpt2'):
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.model.eval()

    def generate(self, prompt, max_len=50):
        input_ids = self.tokenizer.encode(prompt, return_tensors='pt')
        output = self.model.generate(input_ids, max_length=max_len, do_sample=True)
        return self.tokenizer.decode(output[0], skip_special_tokens=True)

在初始化函数中，我们加载了一个 GPT2Tokenizer 和一个 GPT2LMHeadModel，用于分词和模型预测。我们使用默认的 GPT-2 模型参数，但您可以根据需要选择不同的模型。

generate 方法接受一个字符串 prompt 作为输入，并返回一个生成的文本序列。它首先将 prompt 分词，然后调用模型的 generate 方法来生成一个最大长度为 max_len 的序列，这里我们设置为最长 50 个 tokens。最后，我们在输出序列上运行一个简单的解码器，以将 token 转换回字符。

我们可以使用以下代码来测试生成器：

generator = GPTGenerator()

print(generator.generate('The quick brown fox jumps over the lazy dog.'))

输出：

The quick brown fox jumps over the lazy dog. His tail swished back and forth as he ran through the fields, and his ears perked up at every little sound. He was a handsome dog, with sleek fur and bright eyes that shone in the sunlight. The fox, however, was not so impressed. He darted quickly away, jumping over a nearby fence and disappearing into the distance.

这个例子只是一个非常简单的示例，GPT 的真正强大之处在于它可以生成更长、更复杂的文本序列，并调整其生成的样式和主题。然而，这个简单的 Python 实现展示了 GPT 内部的基本原理，即将输入文本转换为神经网络模型可以理解的表示形式，并根据学习的模型参数生成新的文本序列。