字节笔记本
2026年2月20日
Gemini 3.1 Pro 发布:ARC-AGI-2 达 77.1%,Karpathy 称应用商店时代结束
Google 今天凌晨发布了 Gemini 3.1 Pro,在 ARC-AGI-2 基准上拿下 77.1%,是上代 3 Pro(31.1%)的两倍多,同时压过了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。
Gemini 3.1 Pro 发布
Google CEO Sundar Pichai 在今天凌晨官宣了最新模型 Gemini 3.1 Pro。虽然距离上周 Gemini 3 Deep Think 的更新没几天,但 3.1 Pro 的定位非常明确——专为那些「一个简单答案远远不够」的任务而设计,是解决复杂问题的基础底座。
基准测试成绩
ARC-AGI-2:77.1%
在测试模型解决全新逻辑模式能力的 ARC-AGI-2 基准上:
| 模型 | 得分 |
|---|---|
| Gemini 3.1 Pro | 77.1% |
| Anthropic Opus 4.6 | 68.8% |
| OpenAI GPT-5.2 | 52.9% |
| Gemini 3 Pro | 31.1% |
3.1 Pro 是上代 3 Pro 的两倍多,同时压过了主要竞争对手。
其他基准
| 基准 | Gemini 3.1 Pro | 说明 |
|---|---|---|
| GPQA Diamond | 94.3% | 科学知识测试 |
| MCP Atlas | 69.2% | 智能体类基准 |
| BrowseComp | 85.9% | 浏览能力基准 |
| LiveCodeBench Pro Elo | 2887 | 竞争性编程 |
| SWE-Bench Verified | 80.6% | 与 Opus 4.6(80.8%)基本打平 |
不足之处
- MMMU Pro:上代 3 Pro 反而略胜(81.0% vs 80.5%)
- Humanity's Last Exam(启用工具):Opus 4.6 以 53.1% 拿了第一
外界长期批评 Google 工具使用效率不如对手,这次还是没能完全堵上嘴。
第三方评价
Artificial Analysis 给出实在评价:
- 智能指数排名第一,比 Opus 4.6 高 4 分
- 整个测试使用约 5700 万 tokens
- 完成测试的成本不到 Opus 4.6 的一半
能打又省钱,这个组合还是很香的。
实际应用案例
城市规划模拟
Google DeepMind 首席科学家 Jeff Dean 转发了一个用 3.1 Pro 模拟城市规划、设计全新城市的应用,从零生成可交互的规划界面 demo。
代码动画
3.1 Pro 可以直接根据文字提示生成动态 SVG:
- 纯代码生成而非像素
- 任意缩放都不失真
- 文件体积远小于传统视频
航天仪表盘
模型直接接入公开遥测数据流,搭出了一个实时追踪国际空间站轨道的航天仪表盘。
创意类 Demo
3D 椋鸟群模拟:
- 不只是生成视觉代码
- 支持用手势操控鸟群
- 配有随鸟群动态变化的生成音乐
《呼啸山庄》文学氛围网站:
- 没有简单概括情节
- 分析了小说的整体基调
- 设计出贴合主人公气质的界面风格
网友案例
- 鬼怪猎人动画:动态 SVG 循环动画,评价是「Google 这次是认真的」
- 种子生长动画:从破土到长成完整大树,每个阶段过渡顺滑自然,「见过最好的同类效果」
专家站台
去年从 Anthropic 转投 Google DeepMind 的清华物理系特奖得主姚顺宇站台宣传:
「Gemini 不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」
价格
API 按分级付费,整体和上代 3 Pro 保持一致:
| Tokens 范围 | 输入价格 | 输出价格 |
|---|---|---|
| ≤ 20 万 | $2/百万 tokens | $12/百万 tokens |
| > 20 万 | $4/百万 tokens | $18/百万 tokens |
搜索功能每月前 5000 次免费,之后每 1000 次查询收费 $14。
与 Anthropic Opus 系列比还是相对便宜的。
可用平台
- 开发者:AI Studio、Gemini API、Gemini CLI、Google Antigravity、Android Studio
- 企业用户:Vertex AI、Gemini Enterprise
- 普通用户:Gemini 应用、NotebookLM(Pro 和 Ultra 订阅)
Karpathy:应用商店的时代结束了
OpenAI 联创 Andrej Karpathy 刚刚发布的推文引发思考:
他想用 8 周时间把静息心率从 50 降到 45,花了 1 小时用 vibe coding 做了一个专属仪表盘。过程包括:
- 对 Woodway 跑步机云 API 进行逆向工程
- 提取原始数据
- 处理筛选
- 搭出 Web 前端界面
- 修复公制英制单位混用、日历日期对不上等 bug
Karpathy 的感叹:
两年前这事得花 10 小时,现在 1 小时。但这本来应该只需要 1 分钟。
他的判断是:应用商店模式正在过时。
300 行代码、LLM 几秒生成的专属工具,没必要变成一个正经 App 让你去搜索下载。99% 的产品仍然没有 AI 原生的 CLI,还在维护给人看的前端界面,而不是直接提供便于 Agent 调用的 API。
当普通人花 1 小时就能为自己做一个高度定制的专属工具,由 AI 原生传感器和执行器构成、LLM 负责编排、即兴生成高度定制专属应用的时代,就已经近在眼前了。
总结
Gemini 3.1 Pro 的发布标志着:
- 复杂推理能力大幅提升:ARC-AGI-2 77.1% 的成绩领先业界
- 成本优势明显:不到 Opus 4.6 一半的价格
- 应用边界扩展:从回答问题到完成整套专业或创意工作流
- AI 原生应用时代来临:Karpathy 的洞察预示应用商店模式可能被颠覆
值得注意的是,3.1 Pro 目前只是预览版,Google 大概率是要继续打磨好智能体工作流再推正式版。
官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/