字节笔记本
2026年6月7日
你以为自己会用 AI?Karpathy 花 2 小时告诉你只学了皮毛
最近反复看了一遍 Andrej Karpathy 的新视频。
Karpathy 是谁——OpenAI 联合创始人,特斯拉 AI 总监,现在自己出来做教育内容。他上一个视频《Deep Dive into LLMs》讲原理,这个讲实操。两个小时,密度极高。
看完之后我有一个强烈的感受:我之前以为自己挺会用 AI 的,原来只是皮毛。
不是因为我不知道某些功能。而是因为我根本没有建立起正确的认知框架。
这篇文章不是功能清单。是我试图把 Karpathy 的思维方式还原出来,然后告诉你,他为什么这么用,而不只是他用了什么。
第一件事:你在和什么对话
Karpathy 在视频开头做了一件很关键的事——他给 ChatGPT 写了一段自我介绍。
不是 ChatGPT 写的,是他替 ChatGPT 写的。
"嗨,我是 ChatGPT。我是一个 1TB 的 zip 文件。我把整个互联网读了一遍,大概是六个月前,只记得个大概。我的性格是 OpenAI 的标注员用例子喂出来的。"
这段话听起来像段子,但这是他整个使用哲学的基础。
你在和一个有损压缩的互联网对话。
"有损"的意思是:它记得你的,但不精确。互联网上提到一千次的事情,它记得很清楚;只提过一次的小众信息,它可能完全胡说。它的知识有截止日期,因为预训练太贵了,动辄几千万美元、跑三个月,不可能随时更新。
所以你问它"美式咖啡含多少咖啡因",这是个好问题——这种信息在互联网上出现频率极高,而且不会变。但你问它"上周发生了什么",它要么乱说,要么告诉你它不知道。
这个框架决定了你应该什么时候信它,什么时候核实,什么时候根本不问它。
第二件事:上下文窗口是稀缺资源
Karpathy 反复强调一个概念:上下文窗口(context window)是工作记忆。
每次你和 AI 对话,它们共同维护着一条 token 序列。你说的话是 token,它回的话也是 token。这条序列就是"工作记忆"。
点"新对话",这条序列清零,工作记忆归零。
从中推导出一个非常实用的操作原则:换话题就开新对话。 上下文太长会干扰模型,而且上下文越长计算越慢。
反过来,如果你的任务真的需要大量背景信息,你就应该主动把背景塞进去——上传文档、粘贴章节、给它看截图。
第三件事:模型不是越贵越好用,是越匹配越好用
Karpathy 同时付了好几家的订阅,遇到重要问题会同时问所有人,他管这叫"LLM 顾问委员会"。
但他同时说了另一件事:要知道自己在用哪个模型,以及这个模型能不能做你要做的事。
他举了一个例子:他有段代码的梯度检验一直过不了,问了 GPT-4o(不带推理)没解决,换成 o1 pro(推理模型),模型思考了一分钟,准确找到了 bug——参数打包和解包的顺序写反了。
同样的 prompt,两个模型,结果天壤之别。
第四件事:思维模型是质的跃迁
去年开始,各家 LLM 实验室都在搞"推理模型"(Thinking Models)。OpenAI 的 o 系列、DeepSeek R1、Claude 的 Extended Thinking。
它们和普通模型的区别是什么?普通模型的训练是"人给例子,模型照着学"。推理模型多了一个阶段:强化学习。让模型在大量数学题和代码题上反复练习,它自己摸索出哪些思考策略能得到正确答案。
Karpathy 的使用策略是:先用普通模型,不行再切推理模型。 因为推理模型慢,如果问题不复杂,等几分钟完全没必要。
第五件事:工具使用才是真正的能力边界扩展
网络搜索:让它知道今天发生了什么
模型有知识截止日期。想知道最新信息,就要给它接上搜索。Karpathy 用搜索工具查的是这类问题:股市今天开不开,White Lotus 第三季什么时候播,Vercel 现在支不支持 PostgreSQL。
规律是:新鲜的、可能变化的、小众的、需要最新版本信息的,都走搜索工具。
Deep Research:把 10 分钟的搜索工作交给它
模型自主发出多次搜索请求,访问大量网页和论文,思考,整合,跑个 10-20 分钟,给你一份带引用的专题报告。
但他反复强调:把这个结果当第一稿,不要当最终结论。
Python 解释器:让它真正"算"而不是"猜"
LLM 本质上不会做数学。Karpathy 让几个模型计算两个很大的数相乘。ChatGPT 调用了 Python 解释器,结果正确。Grok 没有 Python 工具,它在头脑里硬算,结果差了一个数位。
有没有代码执行能力,决定了这个模型在数值计算、数据分析、图表生成上能不能用。
第六件事:文件上传,把信息喂进工作记忆
Karpathy 说,他现在读书不再一个人读。
他的方法是:找到书的原文,复制当前阅读的章节,粘贴进对话框,然后一边读一边随时提问。他读的是亚当·斯密 1776 年的《国富论》。他说这种方法让他完全改变了阅读体验。
同样的逻辑适用于论文。他上传了一篇 DNA 语言模型的 30MB 论文 PDF,问"帮我总结一下",然后随着阅读进度随时追问。
Google 的 NotebookLM 把这个逻辑做到了极致:你上传任意文档,它帮你生成一期播客,两个 AI 用对话的方式讨论你上传的内容。
第七件事:语音,被严重低估的交互方式
Karpathy 说他大概有一半的查询是语音完成的,在手机上这个比例更高,接近 80%。理由非常朴实:懒。打字太慢,说话快。
"真语音"是 ChatGPT 的 Advanced Voice Mode,音频直接变成 token,模型直接理解音频、直接输出音频,没有文字中转。这让模型能感知你的语气、停顿、情绪。
第八件事:图像与视频,多模态已经很成熟了
Karpathy 的实际用途:拍了营养标签让模型解释成分;上传血检报告截图让模型解读指标;截了在看的韩剧字幕让模型 OCR + 翻译 + 逐字拆解。
他还演示了 Advanced Voice + 摄像头同时开启的效果:把手机摄像头对着书架,模型能识别出书名;对着 CO2 检测仪,读出数值并给出建议。
第九件事:Claude Artifacts,低代码原型的新范式
他用一个例子演示:把亚当·斯密的维基百科介绍粘进去,让 Claude 生成 20 张闪卡,然后用 Artifacts 功能做一个闪卡练习 App。Claude 写了一个 React 组件,直接在对话窗口里运行。
他说:以前软件的逻辑是,有人写了一个通用闪卡 App,你去用。Artifacts 的逻辑是,AI 给你写一个只为你这个任务存在的 App,用完就扔。
第十件事:Vibe Coding,AI 时代的编程方式
Vibe Coding 就是把控制权交给 Cursor 的 Agent 功能,你只负责说想要什么,剩下的让它做。
他演示了从零开始让 Cursor 帮他初始化 React 项目,写一个井字棋游戏,然后加彩带效果和胜利音效。整个过程他基本没动手写代码。
他特别强调:Vibe Coding 的前提是你懂代码。你看不懂模型写的代码,就没有能力判断它在偷懒还是在出错。
第十一件事:记忆和自定义,让 AI 真的了解你
ChatGPT 的 Memory 功能把每次对话里透露的信息提炼成文字存进数据库,下次对话时前置到上下文里。随着使用时间越来越长,ChatGPT 给的建议和推荐也会越来越贴近你。
Custom Instructions 是全局的风格设定。一旦设置好,所有对话都遵循这个框架。
给自己的行动清单
- 换话题就开新对话
- 重要问题同时问几家
- 读书读论文带着 AI 一起读
- 搜索工具该用就用
- 用推理模型处理真正困难的问题
- 建立自己的 Custom GPT
- 看模型写的代码和数字
不是"AI 会取代你",也不是"AI 没什么用"。是:有一批工具在这里,你可以用它们做以前做不到或者做得很慢的事,前提是你真的去用,去踩坑,去摸清楚它的边界在哪里。