ByteNoteByteNote

字节笔记本

2026年2月20日

Gemini 3.1 Pro 发布:ARC-AGI-2 达 77.1%,Karpathy 称应用商店时代结束

Google 今天凌晨发布了 Gemini 3.1 Pro,在 ARC-AGI-2 基准上拿下 77.1%,是上代 3 Pro(31.1%)的两倍多,同时压过了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。

Gemini 3.1 Pro 发布

Google CEO Sundar Pichai 在今天凌晨官宣了最新模型 Gemini 3.1 Pro。虽然距离上周 Gemini 3 Deep Think 的更新没几天,但 3.1 Pro 的定位非常明确——专为那些「一个简单答案远远不够」的任务而设计,是解决复杂问题的基础底座。

基准测试成绩

ARC-AGI-2:77.1%

在测试模型解决全新逻辑模式能力的 ARC-AGI-2 基准上:

模型得分
Gemini 3.1 Pro77.1%
Anthropic Opus 4.668.8%
OpenAI GPT-5.252.9%
Gemini 3 Pro31.1%

3.1 Pro 是上代 3 Pro 的两倍多,同时压过了主要竞争对手。

其他基准

基准Gemini 3.1 Pro说明
GPQA Diamond94.3%科学知识测试
MCP Atlas69.2%智能体类基准
BrowseComp85.9%浏览能力基准
LiveCodeBench Pro Elo2887竞争性编程
SWE-Bench Verified80.6%与 Opus 4.6(80.8%)基本打平

不足之处

  • MMMU Pro:上代 3 Pro 反而略胜(81.0% vs 80.5%)
  • Humanity's Last Exam(启用工具):Opus 4.6 以 53.1% 拿了第一

外界长期批评 Google 工具使用效率不如对手,这次还是没能完全堵上嘴。

第三方评价

Artificial Analysis 给出实在评价:

  • 智能指数排名第一,比 Opus 4.6 高 4 分
  • 整个测试使用约 5700 万 tokens
  • 完成测试的成本不到 Opus 4.6 的一半

能打又省钱,这个组合还是很香的。

实际应用案例

城市规划模拟

Google DeepMind 首席科学家 Jeff Dean 转发了一个用 3.1 Pro 模拟城市规划、设计全新城市的应用,从零生成可交互的规划界面 demo。

代码动画

3.1 Pro 可以直接根据文字提示生成动态 SVG:

  • 纯代码生成而非像素
  • 任意缩放都不失真
  • 文件体积远小于传统视频

航天仪表盘

模型直接接入公开遥测数据流,搭出了一个实时追踪国际空间站轨道的航天仪表盘。

创意类 Demo

3D 椋鸟群模拟

  • 不只是生成视觉代码
  • 支持用手势操控鸟群
  • 配有随鸟群动态变化的生成音乐

《呼啸山庄》文学氛围网站

  • 没有简单概括情节
  • 分析了小说的整体基调
  • 设计出贴合主人公气质的界面风格

网友案例

  • 鬼怪猎人动画:动态 SVG 循环动画,评价是「Google 这次是认真的」
  • 种子生长动画:从破土到长成完整大树,每个阶段过渡顺滑自然,「见过最好的同类效果」

专家站台

去年从 Anthropic 转投 Google DeepMind 的清华物理系特奖得主姚顺宇站台宣传:

「Gemini 不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」

价格

API 按分级付费,整体和上代 3 Pro 保持一致:

Tokens 范围输入价格输出价格
≤ 20 万$2/百万 tokens$12/百万 tokens
> 20 万$4/百万 tokens$18/百万 tokens

搜索功能每月前 5000 次免费,之后每 1000 次查询收费 $14。

与 Anthropic Opus 系列比还是相对便宜的。

可用平台

  • 开发者:AI Studio、Gemini API、Gemini CLI、Google Antigravity、Android Studio
  • 企业用户:Vertex AI、Gemini Enterprise
  • 普通用户:Gemini 应用、NotebookLM(Pro 和 Ultra 订阅)

Karpathy:应用商店的时代结束了

OpenAI 联创 Andrej Karpathy 刚刚发布的推文引发思考:

他想用 8 周时间把静息心率从 50 降到 45,花了 1 小时用 vibe coding 做了一个专属仪表盘。过程包括:

  • 对 Woodway 跑步机云 API 进行逆向工程
  • 提取原始数据
  • 处理筛选
  • 搭出 Web 前端界面
  • 修复公制英制单位混用、日历日期对不上等 bug

Karpathy 的感叹:

两年前这事得花 10 小时,现在 1 小时。但这本来应该只需要 1 分钟。

他的判断是:应用商店模式正在过时

300 行代码、LLM 几秒生成的专属工具,没必要变成一个正经 App 让你去搜索下载。99% 的产品仍然没有 AI 原生的 CLI,还在维护给人看的前端界面,而不是直接提供便于 Agent 调用的 API。

当普通人花 1 小时就能为自己做一个高度定制的专属工具,由 AI 原生传感器和执行器构成、LLM 负责编排、即兴生成高度定制专属应用的时代,就已经近在眼前了。

总结

Gemini 3.1 Pro 的发布标志着:

  1. 复杂推理能力大幅提升:ARC-AGI-2 77.1% 的成绩领先业界
  2. 成本优势明显:不到 Opus 4.6 一半的价格
  3. 应用边界扩展:从回答问题到完成整套专业或创意工作流
  4. AI 原生应用时代来临:Karpathy 的洞察预示应用商店模式可能被颠覆

值得注意的是,3.1 Pro 目前只是预览版,Google 大概率是要继续打磨好智能体工作流再推正式版。

官方博客https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

分享: