RAG 90% 的问题出在文档处理，不在检索和生成

RAG 系统 90% 的问题出在文档处理环节，而不是检索或生成环节。

最常见的情况是，团队花大量精力调 Embedding 模型、换向量数据库、接 Reranker，效果提升有限。回过头来一看，原始文档的清洗和分段完全没做。

文档处理的核心要点有三条。第一，格式统一。PDF、Word、HTML 混在一起时，先统一转成 Markdown，保证后续处理的一致性。第二，段落分割。不是说按固定字符数切就行，而是要根据文档的语义结构（标题、段落、列表）做智能分割。第三，元数据提取。文档的标题、作者、日期、章节结构都要保留为元数据，检索时可以用来做过滤和排序。

这三条做好了，RAG 的效果至少提升 30%。如果这三条没做，换什么模型都没用。

字节笔记本

RAG 90% 的问题出在文档处理，不在检索和生成