字
字节笔记本
2026年5月30日
RAG 90% 的问题出在文档处理,不在检索和生成
API中转
¥120
RAG 系统 90% 的问题出在文档处理环节,而不是检索或生成环节。
最常见的情况是,团队花大量精力调 Embedding 模型、换向量数据库、接 Reranker,效果提升有限。回过头来一看,原始文档的清洗和分段完全没做。
文档处理的核心要点有三条。第一,格式统一。PDF、Word、HTML 混在一起时,先统一转成 Markdown,保证后续处理的一致性。第二,段落分割。不是说按固定字符数切就行,而是要根据文档的语义结构(标题、段落、列表)做智能分割。第三,元数据提取。文档的标题、作者、日期、章节结构都要保留为元数据,检索时可以用来做过滤和排序。
这三条做好了,RAG 的效果至少提升 30%。如果这三条没做,换什么模型都没用。
分享: