把一届世界杯，当成一次受控实验 —— wcelo 2026 世界杯预测研究方法论

把一届世界杯，当成一次受控实验。这不是足球预测项目，是一次受控实验。

立场：为什么是实验，不是预测

绝大多数「世界杯预测」做的是同一件事：搭一个模型、报一个冠军、赛后看猜没猜中。我们刻意不做这件事，因为单届世界杯冠军预测的样本量是 N=1，猜中与否几乎不携带方法论信息——2022 阿根廷夺冠不能证明任何模型对，2014 德国夺冠也不能。

我们的立场是：把这届世界杯当成一台一次性的实验装置，用它检验几个关于「预测」本身的、可证伪的命题。估计器（怎么把两队实力换成比分概率）我们用学界已成熟的标准件，不发明——因为预测领域反复证明，校准良好的老方法通常打败花哨的新方法。创新发生在实验设计层，不在估计器层。仪器应该是无聊的；有意思的是用无聊仪器做的受控对照。

三个可证伪命题

三个命题与各自的裁决判据在揭幕战前写入预注册文件并 git commit，之后只许追加附注、不许改判据。所有比较一律配对（同一批比赛），用 10000 次自助法（bootstrap）重抽求置信区间。

H1 · 实时更新有无增量

赛中每场结果都更新评级、重新模拟，听起来理所当然，但几乎没人预注册地回答过它到底有没有用。每队小组赛仅 3 场，短序列上的更新很可能只是噪声搬运。

判据（成立）：在「首次更新后开球」的约 90+ 场上，M-live 平均排序概率得分（RPS）严格小于 M-frozen，且配对 bootstrap 95% 置信区间不跨零。方向对但 CI 跨零 → 报「方向性证据，功效不足」，不宣称成立。证伪 → 「赛中信息在场级粒度无可检出增量」，作为有价值的负结果报告。

H2 · 校准是否合格

预测的价值在校准而非命中：说 70% 的事约 70% 发生，才是有用的概率。

判据（成立）：M-live 全量单场预测的期望校准误差（ECE，10 等宽桶）≤ 0.05。附加观察（不设判据）：48 队新赛制无历史校准数据，第三名出线机制可能催生「策略性平局」破坏泊松独立性；校准曲线是否系统性走样、是否高估南美预选赛刷分队，是无先例的观测点（N=1，只给观察不给结论）。

H3 · LLM vs 1997 统计模型

2026 是第一届「AI 预测报告满天飞」的世界杯，我们手里正好有一份 224 页大模型多智能体报告。这是本项目最值钱的一刀——不是足球研究，是「AI 推理 vs 经典统计」的评估研究。

H3a（动态，主）：M-llm vs M-live，同口径 RPS / 晋级 Brier 配对比较，判据同 H1；同时报 M-llm vs M-frozen。H3b（静态，辅）：Kimi 报告（B5）赛前冠军 / 四强 / 八强概率 vs M-frozen，按 Brier / 对数损失（log loss）结算。

估计器：标准范式，不发明新估计器

单场预测走一条四段标准流水线：

Elo 评级（国际赛全史，1872 至今）把每支球队压成一个实力数
泊松广义线性模型把两队 Elo 差映射为各自的进球期望 λ
Dixon-Coles 双泊松在此基础上给出单场胜 / 平 / 负概率（含对低比分相关性的修正）
蒙特卡洛把整届赛事模拟 10 万次——含小组排名细则、FIFA 第三名 495 组合对位表、淘汰赛树——汇总成出线 / 各阶段 / 冠军概率

三个模型变体

它们共用完全相同的 λ 映射、Dixon-Coles 与蒙特卡洛内核，唯一区别是喂进内核的 Elo 怎么来：

M-frozen：赛前冻结 Elo，全程永不更新（H1 的对照锚点）
M-live：赛前 Elo + 每场赛果实时演化，纯统计，无任何人工干预
M-llm：M-live + 大模型软信息修正，Claude 读赛前伤停 / 首发 / 轮换等新闻，给出有界 Elo 修正（硬性 clip 到 ±100）

对照设计

八个评分对象，每个信号都要打得过零模型：

编号	模型 / 基线	起点	随赛程更新
M-frozen	自家 · 纯统计 Elo	揭幕战前冻结	否
M-live	自家 · 纯统计实时更新	= M-frozen	是
M-llm	自家 · Elo + LLM 软信息修正	已吸收赛前伤病种子	是
B0	均匀零模型	单场 1/3-1/3-1/3	否
B1	FIFA 排名朴素模型	FIFA 积分差 → 逻辑映射	否
B2	市场（Polymarket）	2026-04 + 开赛前快照	仅冠军层
B4	Klement 确定性 bracket	2026-04（押荷兰夺冠）	否
B5	Kimi 概率表	2026-06-05	否

方法论纪律

诚实结算的七条铁律：

预注册冻结：评分指标、对照集、判据在揭幕战前写入预注册文件并 commit，之后只增不改
零模型优先：每个信号都要打得过均匀零模型
审计可回放：全流程留痕，赛后可逐场回放
诚实结算：赛后照契约结算，不事后改口径
禁止赛中调参：开赛后模型代码、超参全部冻结
未来函数控制（第一纪律）：快照只消费 ≤ 当日数据，写入即只读
LLM 可复算硬约束：提示词强制「今天比赛未进行，绝不查 / 用任何赛果」

评分指标

RPS（排序概率得分）：小组赛 72 场主指标，惩罚「错得离谱」重于「错得接近」
Brier（布里尔得分）：淘汰赛 32 场 + 结构层，二元事件均方概率误差
log loss（对数损失）：冠军层 + H3b，对「给真冠军分配低概率」惩罚极重
ECE（期望校准误差）：H2 判据 ≤ 0.05

结算时点

06-12：揭幕战，预注册冻结
06-12 → 06-28：小组赛 72 场，每日滚动评分
约 06-28：中期报告，H1 / H3a 方向 + 校准初版
06-28 → 07-19：淘汰赛 32 场，晋级 Brier
07-19：决赛
07-20：终局裁决，H1/H2/H3 最终 + 全基线 + 复盘

项目链接

在线研究网站：wcelo.com
源码与预注册：GitHub 仓库（见 wcelo.com 页脚链接）

数据截至 2026-06-13 · 完整方法论见仓库 METHODOLOGY.md 与 registry/preregistration.md wcelo · 研究产出，非投注建议