字
字节笔记本
2026年2月15日
Next.js AI Agent Evaluations - AI 编程代理性能评测
API中转
¥120
Vercel 维护的开源评估框架,用于评测 AI 编程代理在 Next.js 开发任务上的表现。
项目简介
next-evals-oss 是 Vercel 开源的 AI 代理评估框架,专门用于测试 AI 编程代理在真实 Next.js 开发任务中的能力,包括:
- 生成 Next.js 代码
- 将现有代码迁移到 Next.js 模式
- 遵循 Next.js 最佳实践
最后运行日期: 2026年2月10日
评测结果
| 模型 | 代理 | 总评测数 | 成功率 |
|---|---|---|---|
| GPT 5.3 Codex (xhigh) | Codex | 20 | 90% |
| Claude Opus 4.6 | Claude Code | 20 | 80% |
| Gemini 3.0 Pro Preview | OpenCode | 20 | 75% |
| Cursor Composer 1.5 | Cursor | 20 | 70% |
| Claude Sonnet 4.5 | Claude Code | 20 | 55% |
| Gemini 3.0 Pro Preview | Gemini CLI | 20 | 55% |
| Kat Coder Pro V1 | OpenCode | 20 | 45% |
| Devstral 2 | OpenCode | 20 | 40% |
| Minimax M2.1 | OpenCode | 20 | 40% |
| GPT 5.2 Codex (xhigh) | Codex | 20 | 35% |
评测任务示例
agent-000-app-router-migration-simple— 迁移到 App Routeragent-021-avoid-fetch-in-effect— 避免在 useEffect 中使用 fetchagent-022-prefer-server-actions— 使用 Server Actionsagent-023-avoid-getserversideprops— 避免使用 getServerSidePropsagent-024-avoid-redundant-usestate— 消除冗余的 useState
资源链接
- 官方页面: https://nextjs.org/evals
- GitHub 仓库: https://github.com/vercel/next-evals-oss
技术栈
- 框架: Next.js 15+ (App Router)
- 样式: Tailwind CSS with Geist design system
- 组件: 自定义 ExpandableTable、ExpandableRow
- 主题: 支持深色/浅色模式
AI Agent 正在从实验走向生产。越来越多的企业开始在生产环境中部署 Agent,处理客服、运维、数据分析和内部支持等场景。Agent 的生产化部署面临一些实际挑战。可靠性和一致性是最核心的问题,Agent 需要稳定地执行任务,不会出现大起大落的表现波动。监控和可观测性是确保 Agent 稳定运行的基础,每一步的调用记录、token 消耗、执行时间都需要详细记录。Agent 的评估也是一个复杂的问题,传统的离线评估无法完全反映 Agent 在生产环境中的表现,需要结合在线评估和人工抽查。安全性和合规性是 Agent 落地中不可忽视的问题,Agent 的自主性越高,潜在的风险也越大。建议在关键决策点设置人工审核环节,确保 Agent 不会独立执行高风险操作。
分享: