字节笔记本
2026年6月14日
把一届世界杯,当成一次受控实验 —— wcelo 2026 世界杯预测研究方法论
把一届世界杯,当成一次受控实验。这不是足球预测项目,是一次受控实验。
立场:为什么是实验,不是预测
绝大多数「世界杯预测」做的是同一件事:搭一个模型、报一个冠军、赛后看猜没猜中。我们刻意不做这件事,因为单届世界杯冠军预测的样本量是 N=1,猜中与否几乎不携带方法论信息——2022 阿根廷夺冠不能证明任何模型对,2014 德国夺冠也不能。
我们的立场是:把这届世界杯当成一台一次性的实验装置,用它检验几个关于「预测」本身的、可证伪的命题。估计器(怎么把两队实力换成比分概率)我们用学界已成熟的标准件,不发明——因为预测领域反复证明,校准良好的老方法通常打败花哨的新方法。创新发生在实验设计层,不在估计器层。仪器应该是无聊的;有意思的是用无聊仪器做的受控对照。
三个可证伪命题
三个命题与各自的裁决判据在揭幕战前写入预注册文件并 git commit,之后只许追加附注、不许改判据。所有比较一律配对(同一批比赛),用 10000 次自助法(bootstrap)重抽求置信区间。
H1 · 实时更新有无增量
赛中每场结果都更新评级、重新模拟,听起来理所当然,但几乎没人预注册地回答过它到底有没有用。每队小组赛仅 3 场,短序列上的更新很可能只是噪声搬运。
判据(成立):在「首次更新后开球」的约 90+ 场上,M-live 平均排序概率得分(RPS)严格小于 M-frozen,且配对 bootstrap 95% 置信区间不跨零。方向对但 CI 跨零 → 报「方向性证据,功效不足」,不宣称成立。证伪 → 「赛中信息在场级粒度无可检出增量」,作为有价值的负结果报告。
H2 · 校准是否合格
预测的价值在校准而非命中:说 70% 的事约 70% 发生,才是有用的概率。
判据(成立):M-live 全量单场预测的期望校准误差(ECE,10 等宽桶)≤ 0.05。附加观察(不设判据):48 队新赛制无历史校准数据,第三名出线机制可能催生「策略性平局」破坏泊松独立性;校准曲线是否系统性走样、是否高估南美预选赛刷分队,是无先例的观测点(N=1,只给观察不给结论)。
H3 · LLM vs 1997 统计模型
2026 是第一届「AI 预测报告满天飞」的世界杯,我们手里正好有一份 224 页大模型多智能体报告。这是本项目最值钱的一刀——不是足球研究,是「AI 推理 vs 经典统计」的评估研究。
H3a(动态,主):M-llm vs M-live,同口径 RPS / 晋级 Brier 配对比较,判据同 H1;同时报 M-llm vs M-frozen。H3b(静态,辅):Kimi 报告(B5)赛前冠军 / 四强 / 八强概率 vs M-frozen,按 Brier / 对数损失(log loss)结算。
估计器:标准范式,不发明新估计器
单场预测走一条四段标准流水线:
- Elo 评级(国际赛全史,1872 至今)把每支球队压成一个实力数
- 泊松广义线性模型把两队 Elo 差映射为各自的进球期望 λ
- Dixon-Coles 双泊松在此基础上给出单场胜 / 平 / 负概率(含对低比分相关性的修正)
- 蒙特卡洛把整届赛事模拟 10 万次——含小组排名细则、FIFA 第三名 495 组合对位表、淘汰赛树——汇总成出线 / 各阶段 / 冠军概率
三个模型变体
它们共用完全相同的 λ 映射、Dixon-Coles 与蒙特卡洛内核,唯一区别是喂进内核的 Elo 怎么来:
- M-frozen:赛前冻结 Elo,全程永不更新(H1 的对照锚点)
- M-live:赛前 Elo + 每场赛果实时演化,纯统计,无任何人工干预
- M-llm:M-live + 大模型软信息修正,Claude 读赛前伤停 / 首发 / 轮换等新闻,给出有界 Elo 修正(硬性 clip 到 ±100)
对照设计
八个评分对象,每个信号都要打得过零模型:
| 编号 | 模型 / 基线 | 起点 | 随赛程更新 |
|---|---|---|---|
| M-frozen | 自家 · 纯统计 Elo | 揭幕战前冻结 | 否 |
| M-live | 自家 · 纯统计实时更新 | = M-frozen | 是 |
| M-llm | 自家 · Elo + LLM 软信息修正 | 已吸收赛前伤病种子 | 是 |
| B0 | 均匀零模型 | 单场 1/3-1/3-1/3 | 否 |
| B1 | FIFA 排名朴素模型 | FIFA 积分差 → 逻辑映射 | 否 |
| B2 | 市场(Polymarket) | 2026-04 + 开赛前快照 | 仅冠军层 |
| B4 | Klement 确定性 bracket | 2026-04(押荷兰夺冠) | 否 |
| B5 | Kimi 概率表 | 2026-06-05 | 否 |
方法论纪律
诚实结算的七条铁律:
- 预注册冻结:评分指标、对照集、判据在揭幕战前写入预注册文件并 commit,之后只增不改
- 零模型优先:每个信号都要打得过均匀零模型
- 审计可回放:全流程留痕,赛后可逐场回放
- 诚实结算:赛后照契约结算,不事后改口径
- 禁止赛中调参:开赛后模型代码、超参全部冻结
- 未来函数控制(第一纪律):快照只消费 ≤ 当日数据,写入即只读
- LLM 可复算硬约束:提示词强制「今天比赛未进行,绝不查 / 用任何赛果」
评分指标
- RPS(排序概率得分):小组赛 72 场主指标,惩罚「错得离谱」重于「错得接近」
- Brier(布里尔得分):淘汰赛 32 场 + 结构层,二元事件均方概率误差
- log loss(对数损失):冠军层 + H3b,对「给真冠军分配低概率」惩罚极重
- ECE(期望校准误差):H2 判据 ≤ 0.05
结算时点
- 06-12:揭幕战,预注册冻结
- 06-12 → 06-28:小组赛 72 场,每日滚动评分
- 约 06-28:中期报告,H1 / H3a 方向 + 校准初版
- 06-28 → 07-19:淘汰赛 32 场,晋级 Brier
- 07-19:决赛
- 07-20:终局裁决,H1/H2/H3 最终 + 全基线 + 复盘
项目链接
- 在线研究网站:wcelo.com
- 源码与预注册:GitHub 仓库(见 wcelo.com 页脚链接)
数据截至 2026-06-13 · 完整方法论见仓库 METHODOLOGY.md 与 registry/preregistration.md wcelo · 研究产出,非投注建议