字节笔记本
2026年2月16日
Cloudflare 推出 Markdown for Agents:让 AI Agent 更高效地读取网页内容
本文介绍 Cloudflare 推出的 Markdown for Agents 功能,该功能可自动将 HTML 转换为 Markdown,帮助 AI Agent 更高效地读取和处理网页内容,减少 80% 的 Token 消耗。
背景:网络发现方式的转变
在线内容和业务的发现方式正在迅速改变。过去,流量来自传统搜索引擎,SEO 决定了谁能被优先找到。现在,流量越来越多地来自需要结构化数据的 AI 爬虫和 Agent,而网页是为人类构建的,往往是非结构化的。
作为企业,为了保持领先地位,现在不仅要考虑人类访客或传统的 SEO 优化,还要开始将 Agent 视为一等公民。
为什么 Markdown 很重要
将原始 HTML 喂给 AI 就像按字数付费阅读包装而不是里面的信件。一个简单的 ## About Us 在 Markdown 中大约需要 3 个 token;其 HTML 等效形式 <h2 class="section-title" id="about">About Us</h2> 需要 12-15 个 token,这还没算上包裹每个真实网页的 <div> 包装器、导航栏和脚本标签,这些对 AI 来说没有语义价值。
Cloudflare 的这篇博客文章在 HTML 中需要 16,180 个 token,转换为 Markdown 后只需 3,150 个 token。Token 使用量减少了 80%。
Markdown 已迅速成为 Agent 和 AI 系统的通用语言。该格式的显式结构使其非常适合 AI 处理,最终产生更好的结果,同时最大限度地减少 token 浪费。
问题是 Web 由 HTML 而非 Markdown 构成,而且页面权重多年来一直在稳步增加,使得页面难以解析。对于 Agent 来说,它们的目标是过滤掉所有非必要元素并扫描相关内容。
HTML 到 Markdown 的转换现在是任何 AI 管道的常见步骤。然而,这个过程远非理想:它浪费计算资源、增加成本和处理复杂性,最重要的是,它可能不是内容创建者最初希望使用其内容的方式。
如果 AI Agent 可以绕过意图分析和文档转换的复杂性,直接从源接收结构化的 Markdown 会怎样?
自动将 HTML 转换为 Markdown
Cloudflare 的网络现在支持在源端进行实时内容转换,适用于启用的区域,使用内容协商(content negotiation)头部。现在,当 AI 系统从任何使用 Cloudflare 且启用了 Markdown for Agents 的网站请求页面时,它们可以在请求中表达对 text/markdown 的偏好。Cloudflare 的网络将自动高效地将 HTML 转换为 Markdown(如果可能的话),即时完成。
工作原理
要从启用了 Markdown for Agents 的区域获取页面的 Markdown 版本,客户端需要添加 Accept 协商头部,并将 text/markdown 作为选项之一。Cloudflare 会检测到此请求,从源获取原始 HTML 版本,并在提供给客户端之前将其转换为 Markdown。
使用示例
使用 curl:
curl https://developers.cloudflare.com/fundamentals/reference/markdown-for-agents/ \
-H "Accept: text/markdown"使用 Workers TypeScript:
const r = await fetch(
`https://developers.cloudflare.com/fundamentals/reference/markdown-for-agents/`,
{
headers: {
Accept: "text/markdown, text/html",
},
},
);
const tokenCount = r.headers.get("x-markdown-tokens");
const markdown = await r.text();Cloudflare 已经注意到一些最受欢迎的编码 Agent(如 Claude Code 和 OpenCode)在请求内容时会发送这些 accept 头部。现在,对此请求的响应将以 Markdown 格式返回。
响应示例
HTTP/2 200
date: Wed, 11 Feb 2026 11:44:48 GMT
content-type: text/markdown; charset=utf-8
content-length: 2899
vary: accept
x-markdown-tokens: 725
content-signal: ai-train=yes, search=yes, ai-input=yes
---
title: Markdown for Agents · Cloudflare Agents docs
---
## What is Markdown for Agents
The ability to parse and convert HTML to Markdown has become foundational for AI.
...注意,响应中包含 x-markdown-tokens 头部,指示 Markdown 文档中的估计 token 数量。你可以在流程中使用这个值,例如计算上下文窗口的大小或决定分块策略。
内容信号策略(Content Signals Policy)
在去年的 Birthday Week 期间,Cloudflare 宣布了 Content Signals , 一个允许任何人表达其内容在被访问后如何被使用的偏好的框架。
当返回 Markdown 时,你希望确保你的内容被 Agent 或 AI 爬虫使用。这就是为什么 Markdown for Agents 转换后的响应包含 Content-Signal: ai-train=yes, search=yes, ai-input=yes 头部,表明内容可用于 AI 训练、搜索结果和 AI 输入(包括 Agent 使用)。
Markdown for Agents 未来将提供定义自定义 Content Signal 策略的选项。
其他转换为 Markdown 的方式
如果你正在构建需要任意文档转换的 AI 系统,而 Markdown for Agents 在内容源不可用,Cloudflare 提供其他方式将文档转换为 Markdown:
- Workers AI AI.toMarkdown():支持多种文档类型,不仅仅是 HTML,还包括摘要功能。
- Browser Rendering /markdown REST API:如果你需要在转换前在真实浏览器中渲染动态页面或应用程序,支持 Markdown 转换。
跟踪 Markdown 使用情况
Cloudflare Radar 现在包含 AI 机器人和爬虫流量的内容类型洞察,包括:
- 全球 AI Insights 页面上的内容类型分布
- 各个机器人信息页面上的详细数据
新的 content_type 维度和过滤器显示返回给 AI Agent 和爬虫的内容类型分布,按 MIME 类型类别分组。
你可以查看返回 Markdown 给特定 Agent 或爬虫的请求。例如,查看返回 Markdown 给 OAI-Searchbot(OpenAI 用于为 ChatGPT 搜索提供支持的爬虫)的请求。
这些新数据将允许 Cloudflare 跟踪 AI 机器人、爬虫和 Agent 如何随时间消耗 Web 内容的演变。
开始使用
要为你的区域启用 Markdown for Agents:
- 登录 Cloudflare 仪表板
- 选择你的账户
- 选择区域
- 查找 Quick Actions
- 将 Markdown for Agents 按钮切换为启用
该功能目前处于 Beta 阶段,对 Pro、Business 和 Enterprise 计划以及 SSL for SaaS 客户免费提供。
总结
Markdown for Agents 代表了 Web 内容交付方式的重大转变。通过自动将 HTML 转换为 Markdown,Cloudflare 帮助:
- 减少 80% 的 Token 使用量,降低 AI 处理成本
- 提高 AI Agent 的内容理解能力,通过结构化数据
- 简化 AI 管道,无需额外的 HTML 到 Markdown 转换步骤
- 为内容创建者提供控制,通过 Content Signals 框架
随着 AI Agent 越来越多地成为 Web 的主要消费者,这种将 Agent 视为一等公民的方法将成为未来 Web 基础设施的标准配置。
原文链接:https://blog.cloudflare.com/markdown-for-agents/
作者:Celso Martinho, Will Allen (Cloudflare)
发布日期:2026年2月12日