选 GPU 还在看算力？推理的瓶颈从来不是算力

选 GPU 的时候，大多数人盯着算力看。算力越高越快，这是直觉。

但这个直觉在 AI 推理场景下是错的。推理的瓶颈几乎从来不在算力，而在内存带宽。

原因很简单：推理的过程不是"算"，而是"读"。当模型做推理时，它需要把数十亿甚至数千亿的参数从显存加载到计算单元。这个"读取"的速度，决定了 token 生成的速度。算力决定了你能一次算多复杂的东西，内存带宽决定了你能多快把参数喂给计算单元。

以 H100 和 A100 的对比为例。H100 的 FP8 算力是 A100 的 6 倍（3958 TFLOPS vs 624 TFLOPS），但内存带宽只提升了 1.7 倍（3.35 TB/s vs 2 TB/s）。如果在跑小 batch 推理，算力根本跑不满，瓶颈全在带宽上。H100 实际的推理速度提升可能只有 1.5 到 2 倍，而不是 6 倍。

这就是为什么很多人在 A100 上跑推理觉得够用，换了 H100 却没感受到预期中的巨大提升——选型时盯着算力看，实际花的钱在带宽上。

对于推理为主的场景，选型策略应该是：先算清楚你的模型需要多少内存带宽，再决定 GPU 型号。公式很简单：模型参数量 × 每个参数需要的字节数 / 目标 token 生成速度 = 需要的内存带宽。这个数字大于 GPU 的峰值带宽，你就遇到了带宽瓶颈；远小于峰值带宽，说明算力才是你的瓶颈。

别让 GPU 选型变成一场参数军备竞赛。看清你的 workload 到底绑在算力上还是绑在带宽上，比看懂所有的 benchmark 都重要。

字节笔记本

选 GPU 还在看算力？推理的瓶颈从来不是算力