RAG 是什么？用「开卷考试」理解检索增强生成

先把三个字母拆开

RAG = Retrieval（检索）+ Augmented（增强）+ Generation（生成）。

可以理解为：在让大模型「写作文」之前，先从你自己的资料库里翻出相关片段，一起塞给模型当参考，再让它基于这些材料组织答案。

所以 RAG 的核心不是把模型变大，而是把「可靠的外部知识」接到生成环节前面。

把你的长文档切成小块（chunk），每一块变成一篇「小纸条」。
同时用嵌入模型把每块文字变成向量（一串数字），表示「语义在哪块空间里」。这些都存进向量数据库或索引里。

通俗说：给每段话办一张「语义身份证」，相似的段落在数学上离得近。

用户问一句话，用同一个嵌入模型把问题也变成向量。

在向量库里做相似度搜索：哪些问题向量和哪些文档块向量最像，就取出** Top-K 条**最相关的片段。

这一步决定：考场上能翻开的那几页到底是哪几页。

把「用户问题 + 检索到的片段」一起写进 Prompt，让大模型只依据或优先依据这些片段来回答。

模型仍然负责：组织语言、归纳、分点、翻译风格；
事实依据尽量来自你刚检索到的内容，而不是凭空发挥。

概念	人话
Embedding / 向量	把话压成一串数，意思相近的话，数也长得像。
向量库	存「文档块 ↔ 向量」的地方，方便按相似度快速搜。
Chunk / 分块	太长一次塞不下、也不容易对准问题，切成段更好检索。
Top-K	搜最相近的 K 段，K 太大噪声多，太小可能漏信息。
重排序（Rerank）	向量检索先捞一批候选，再用更精细的模型排一遍序，提高命中率。

RAG = 先在自己的知识库里「翻最相关的几页」，再让大模型「按材料答题」。

它解决的是：把模型生成能力，和可更新、可归属的外部知识绑在一起，从而降低胡编、提高时效与可控性。
搞清「检索质量」和「Prompt 约束」这两头，你就抓住了 RAG 的灵魂。