你以为自己会用 AI？Karpathy 花 2 小时告诉你只学了皮毛

最近反复看了一遍 Andrej Karpathy 的新视频。

Karpathy 是谁——OpenAI 联合创始人，特斯拉 AI 总监，现在自己出来做教育内容。他上一个视频《Deep Dive into LLMs》讲原理，这个讲实操。两个小时，密度极高。

看完之后我有一个强烈的感受：我之前以为自己挺会用 AI 的，原来只是皮毛。

不是因为我不知道某些功能。而是因为我根本没有建立起正确的认知框架。

这篇文章不是功能清单。是我试图把 Karpathy 的思维方式还原出来，然后告诉你，他为什么这么用，而不只是他用了什么。

第一件事：你在和什么对话

Karpathy 在视频开头做了一件很关键的事——他给 ChatGPT 写了一段自我介绍。

不是 ChatGPT 写的，是他替 ChatGPT 写的。

"嗨，我是 ChatGPT。我是一个 1TB 的 zip 文件。我把整个互联网读了一遍，大概是六个月前，只记得个大概。我的性格是 OpenAI 的标注员用例子喂出来的。"

这段话听起来像段子，但这是他整个使用哲学的基础。

你在和一个有损压缩的互联网对话。

"有损"的意思是：它记得你的，但不精确。互联网上提到一千次的事情，它记得很清楚；只提过一次的小众信息，它可能完全胡说。它的知识有截止日期，因为预训练太贵了，动辄几千万美元、跑三个月，不可能随时更新。

所以你问它"美式咖啡含多少咖啡因"，这是个好问题——这种信息在互联网上出现频率极高，而且不会变。但你问它"上周发生了什么"，它要么乱说，要么告诉你它不知道。

这个框架决定了你应该什么时候信它，什么时候核实，什么时候根本不问它。

第二件事：上下文窗口是稀缺资源

Karpathy 反复强调一个概念：上下文窗口（context window）是工作记忆。

每次你和 AI 对话，它们共同维护着一条 token 序列。你说的话是 token，它回的话也是 token。这条序列就是"工作记忆"。

点"新对话"，这条序列清零，工作记忆归零。

从中推导出一个非常实用的操作原则：换话题就开新对话。 上下文太长会干扰模型，而且上下文越长计算越慢。

反过来，如果你的任务真的需要大量背景信息，你就应该主动把背景塞进去——上传文档、粘贴章节、给它看截图。

第三件事：模型不是越贵越好用，是越匹配越好用

Karpathy 同时付了好几家的订阅，遇到重要问题会同时问所有人，他管这叫"LLM 顾问委员会"。

但他同时说了另一件事：要知道自己在用哪个模型，以及这个模型能不能做你要做的事。

他举了一个例子：他有段代码的梯度检验一直过不了，问了 GPT-4o（不带推理）没解决，换成 o1 pro（推理模型），模型思考了一分钟，准确找到了 bug——参数打包和解包的顺序写反了。

同样的 prompt，两个模型，结果天壤之别。

第四件事：思维模型是质的跃迁

去年开始，各家 LLM 实验室都在搞"推理模型"（Thinking Models）。OpenAI 的 o 系列、DeepSeek R1、Claude 的 Extended Thinking。

它们和普通模型的区别是什么？普通模型的训练是"人给例子，模型照着学"。推理模型多了一个阶段：强化学习。让模型在大量数学题和代码题上反复练习，它自己摸索出哪些思考策略能得到正确答案。

Karpathy 的使用策略是：先用普通模型，不行再切推理模型。 因为推理模型慢，如果问题不复杂，等几分钟完全没必要。

第五件事：工具使用才是真正的能力边界扩展

网络搜索：让它知道今天发生了什么

模型有知识截止日期。想知道最新信息，就要给它接上搜索。Karpathy 用搜索工具查的是这类问题：股市今天开不开，White Lotus 第三季什么时候播，Vercel 现在支不支持 PostgreSQL。

规律是：新鲜的、可能变化的、小众的、需要最新版本信息的，都走搜索工具。

Deep Research：把 10 分钟的搜索工作交给它

模型自主发出多次搜索请求，访问大量网页和论文，思考，整合，跑个 10-20 分钟，给你一份带引用的专题报告。

但他反复强调：把这个结果当第一稿，不要当最终结论。

Python 解释器：让它真正"算"而不是"猜"

LLM 本质上不会做数学。Karpathy 让几个模型计算两个很大的数相乘。ChatGPT 调用了 Python 解释器，结果正确。Grok 没有 Python 工具，它在头脑里硬算，结果差了一个数位。

有没有代码执行能力，决定了这个模型在数值计算、数据分析、图表生成上能不能用。

第六件事：文件上传，把信息喂进工作记忆

Karpathy 说，他现在读书不再一个人读。

他的方法是：找到书的原文，复制当前阅读的章节，粘贴进对话框，然后一边读一边随时提问。他读的是亚当·斯密 1776 年的《国富论》。他说这种方法让他完全改变了阅读体验。

同样的逻辑适用于论文。他上传了一篇 DNA 语言模型的 30MB 论文 PDF，问"帮我总结一下"，然后随着阅读进度随时追问。

Google 的 NotebookLM 把这个逻辑做到了极致：你上传任意文档，它帮你生成一期播客，两个 AI 用对话的方式讨论你上传的内容。

第七件事：语音，被严重低估的交互方式

Karpathy 说他大概有一半的查询是语音完成的，在手机上这个比例更高，接近 80%。理由非常朴实：懒。打字太慢，说话快。

"真语音"是 ChatGPT 的 Advanced Voice Mode，音频直接变成 token，模型直接理解音频、直接输出音频，没有文字中转。这让模型能感知你的语气、停顿、情绪。

第八件事：图像与视频，多模态已经很成熟了

Karpathy 的实际用途：拍了营养标签让模型解释成分；上传血检报告截图让模型解读指标；截了在看的韩剧字幕让模型 OCR + 翻译 + 逐字拆解。

他还演示了 Advanced Voice + 摄像头同时开启的效果：把手机摄像头对着书架，模型能识别出书名；对着 CO2 检测仪，读出数值并给出建议。

第九件事：Claude Artifacts，低代码原型的新范式

他用一个例子演示：把亚当·斯密的维基百科介绍粘进去，让 Claude 生成 20 张闪卡，然后用 Artifacts 功能做一个闪卡练习 App。Claude 写了一个 React 组件，直接在对话窗口里运行。

他说：以前软件的逻辑是，有人写了一个通用闪卡 App，你去用。Artifacts 的逻辑是，AI 给你写一个只为你这个任务存在的 App，用完就扔。

第十件事：Vibe Coding，AI 时代的编程方式

Vibe Coding 就是把控制权交给 Cursor 的 Agent 功能，你只负责说想要什么，剩下的让它做。

他演示了从零开始让 Cursor 帮他初始化 React 项目，写一个井字棋游戏，然后加彩带效果和胜利音效。整个过程他基本没动手写代码。

他特别强调：Vibe Coding 的前提是你懂代码。你看不懂模型写的代码，就没有能力判断它在偷懒还是在出错。

第十一件事：记忆和自定义，让 AI 真的了解你

ChatGPT 的 Memory 功能把每次对话里透露的信息提炼成文字存进数据库，下次对话时前置到上下文里。随着使用时间越来越长，ChatGPT 给的建议和推荐也会越来越贴近你。

Custom Instructions 是全局的风格设定。一旦设置好，所有对话都遵循这个框架。

给自己的行动清单

换话题就开新对话
重要问题同时问几家
读书读论文带着 AI 一起读
搜索工具该用就用
用推理模型处理真正困难的问题
建立自己的 Custom GPT
看模型写的代码和数字

不是"AI 会取代你"，也不是"AI 没什么用"。是：有一批工具在这里，你可以用它们做以前做不到或者做得很慢的事，前提是你真的去用，去踩坑，去摸清楚它的边界在哪里。