大语言模型到底是怎么生成答案的:给营销人的技术入门课
做营销的人,大概率不需要懂怎么训练模型,也不需要读懂每一行 Python(当然懂这些的话竞争力就更高了)。但如果我们想做好 GEO——让 AI 在回答里引用我们的内容——必须搞清楚 LLM(大语言模型)是怎么工作的。因为它的工作方式,直接决定了什么内容会被选中、什么内容会被跳过。
这篇我会用几个类比把 LLM 的核心机制说清楚。会适当触及一些技术细节,但不多——能指导内容策略就够了,不需要去理解反向传播算法。
读完这篇你会搞明白几件事:
- LLM 的本质是什么——它不是在"理解",它在做一件更简单(也更神奇)的事
- 训练和推理是两个完全不同的阶段——你的内容在这两个阶段扮演不同角色
- 上下文窗口——LLM 的「工作台」有多大,以及为什么你的内容在里面要排队竞争
- 参数化知识 vs 检索知识——为什么 AI 会一本正经地说胡说八道,以及 RAG 系统是怎么解决这个问题的
- 这些对我们写内容意味着什么——从 LLM 机制出发的三条实操原则
关于 GEO 的整体框架,可以先看站内文章《GEO 是什么》;术语不熟悉的话,《GEO 术语表》可以随时查阅。
LLM 的本质:预测下一个词
大语言模型做的事情,用一句话说就是:给定前面的文字,预测下一个最可能出现的词(token)。
听起来太简单了。但就是这个简单的预测任务,在海量数据上反复训练之后,产生了 ChatGPT、Claude、Gemini 这些看起来「聪明」的 AI。
打个比方。你跟朋友说"今天北京的天气真的……",朋友会接"冷啊""热啊""差劲啊"——因为他们见过太多类似的句子,知道后面跟什么最自然。LLM 干的事情跟这个一样,只不过它"见过"的句子是整个互联网,数量级是万亿级别。
有一点很关键:LLM 没有「理解」,它在做极其精细的模式匹配。它不知道「北京」是一个城市,不知道「天气」指大气状态——它只知道这些词在上下文里通常跟什么搭配。之所以结果看起来像在「理解」,是因为训练数据足够大,模式足够复杂。
这对你有什么影响?划重点:AI 引用的内容,是它认为在这个对话上下文里「最该出现」的内容。所以你的内容要做的,是让自己成为那个「最该出现」的答案。
训练 vs 推理:两个完全不同的阶段
很多人把「AI 学过你的内容」和「AI 会引用你的内容」混为一谈。但这其实是两件事,发生在两个阶段。
┌─────────────────────────────────────────────────────────────────┐
│ │
│ 阶段一:训练(Training) │
│ │
│ 互联网文本 ──→ 分词(Tokenization)──→ 大量梯度更新 │
│ (万亿 tokens) ↓ ↓ │
│ 模型参数 ←──────── 调整权重(反复迭代) │
│ │
│ 结果:模型「记住」了语言规律和世界知识(参数化知识) │
│ 特点:有截止日期、一次性、不可实时更新 │
│ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 阶段二:推理(Inference) │
│ │
│ 用户提问 ──→ 检索相关内容(RAG)──→ 填入上下文窗口 │
│ ↓ ↓ │
│ 训练好的模型 ←────────── 生成回答(逐 token) │
│ │
│ 结果:基于上下文窗口里的信息生成答案(检索知识) │
│ 特点:实时、每次查询独立、可插入新鲜内容 │
│ │
└─────────────────────────────────────────────────────────────────┘
| 维度 | 训练阶段 | 推理阶段 |
|---|---|---|
| 时间 | 模型发布前,一次性完成 | 每次用户提问时实时发生 |
| 你的内容角色 | 可能成为训练语料(参数化知识) | 通过 RAG 被检索并填入上下文(检索知识) |
| 你能控制的 | 几乎不能(内容是否进入训练集取决于爬虫和数据筛选) | 完全可以(优化内容结构、保持内容更新、确保爬虫可访问) |
| 知识截止 | 有截止日期(各模型不同,GPT-5.4 截止约 2025 年初) | 没有截止,每次可获取最新内容 |
一个重要推论:做 GEO,你真正能影响的是推理阶段,不是训练阶段。你无法控制自己的内容有没有进入 GPT-5.4 的训练数据,但你完全可以控制你的内容在 RAG 检索时能不能被找到、被选中。
这也是为什么 GEO 的核心是「让 AI 搜索引擎能检索、能解析、能引用你的内容」,而不是「想办法让 AI 把你的内容记到参数里」——后者基本不在你的控制范围内。
上下文窗口:LLM 工作时的「工作台」
LLM 在生成一个回答时,能「看到」的内容是有限的。这个限制就叫上下文窗口(Context Window)——它决定了 LLM 在生成回答时同时能处理的文字量。关于向量嵌入怎么把你的内容编码进这个系统,可以看《向量嵌入是什么》。
把它想象成一张桌子。桌子有固定的面积,只能把有限的资料摆上去。LLM 每次回答问题时,都会把以下内容塞进这张桌子:
┌──────────────────────────────────────────────────────────┐
│ 上下文窗口 │
│ ┌──────────────┐ ┌──────────────┐ ┌────────────────┐ │
│ │ 系统提示词 │ │ 检索到的内容 │ │ 用户的问题 │ │
│ │ (System │ │ (RAG 召回的 │ │ + 对话历史 │ │
│ │ Prompt) │ │ 文档片段) │ │ │ │
│ └──────────────┘ └──────────────┘ └────────────────┘ │
│ ↑ ↑ ↑ │
│ 固定占用 竞争的核心区域 用户输入 │
└──────────────────────────────────────────────────────────┘
LLM 基于这些内容生成答案 ↓
主流模型的上下文窗口大小(数据截止 2026 年 3 月):
| 模型 | 上下文窗口 | 大约等于 | 备注 |
|---|---|---|---|
| GPT-5.4(OpenAI 现旗舰) | 1,000,000 tokens(API)/ 272,000 tokens(ChatGPT 标准) | ~75 万 / ~20 万汉字 | GPT-4o 已被取代,API 端窗口扩大至 100 万 |
| Claude Sonnet 4.6 | 1,000,000 tokens | ~75 万汉字 | 2026 年 3 月正式 GA,100 万 token |
| Gemini 2.5 Pro(Google 现旗舰) | 1,000,000 tokens(2M 即将推出) | ~75 万汉字 | Gemini 1.5 Pro 已被 2.5 Pro 取代 |
| Gemini 2.0 Flash | 1,048,576 tokens | ~78 万汉字 | 无变化 |
| DeepSeek-V3.2 | 128,000 tokens | ~10 万汉字 | 引入 DSA 稀疏注意力机制提升长文本效率 |
窗口看起来很大,但实际情况是:AI 搜索引擎在用 RAG 填充上下文时,不会把整个网页塞进去。它会先把你的内容切成几百个 token 的小块(chunk),然后只把最相关的几块放进上下文窗口。
这里有一个很重要但很少被提到的现象,AI 工程师叫它 「中间迷失」(Lost in the Middle):Stanford 和 UC Berkeley 的研究(Liu et al., 2023)发现,当大量信息被塞进上下文窗口时,位置靠前和靠后的内容被模型关注到的概率远高于中间部分。
换句话说,你的内容 chunk 在上下文里的位置影响它被引用的概率。被 RAG 系统排在前面的 chunk,比排在后面的更有优势。RAG 系统怎么排序?靠 reranker——也就是说,内容质量决定了你在窗口里的座次。
参数化知识 vs 检索知识
LLM 生成答案时用的知识来自两个地方。搞清楚这两种知识的区别,是理解「AI 为什么会出错」以及「你能做什么」的基础。关于知识截止日期和实时检索的详细机制,可以看《AI 知识截止、接地与实时搜索》。
参数化知识(Parametric Knowledge):训练时「记」进模型权重里的知识。这些知识是固化的——一旦训练完成,不会自动更新。每个模型都有各自的训练截止日期,GPT-5.4 的训练截止约在 2025 年初,它对此之后发生的事情一无所知。
检索知识(Retrieved Knowledge):推理时通过 RAG 实时检索到、并填入上下文窗口的知识。这是新鲜的——只要你的内容被爬虫索引了,今天发布的文章今天就可能被引用。
| 对比维度 | 参数化知识 | 检索知识 |
|---|---|---|
| 存储位置 | 模型权重(神经网络参数) | 外部知识库 / 互联网 |
| 更新方式 | 重新训练(成本极高) | 实时检索(每次推理) |
| 新鲜度 | 有截止日期 | 实时 |
| 可信度 | 可能有幻觉(Hallucination) | 基于真实来源,但依赖来源质量 |
| 你能影响吗 | 基本不能 | 完全可以 |
| GEO 相关性 | 低(无法控制) | 高(GEO 优化的核心战场) |
「幻觉」的根本原因就在这里:当 LLM 被问到一个它的参数化知识里没有准确答案的问题时,它不会说「我不知道」——它会继续预测「下一个最可能的 token」,结果生成了听起来很合理但完全错误的内容。
RAG 系统的出现,就是为了用检索知识来补充和纠正参数化知识。大多数 AI 搜索引擎(Perplexity、ChatGPT Search、Google AI Overviews)都是 RAG 系统——它们用 LLM 的语言能力来生成回答,但把生成的基础换成了实时检索到的内容,而不是靠「记忆」。这也是为什么这些平台能引用最新的内容——只要你的内容被它们的爬虫抓到了,就有机会进入回答。RAG 的完整工作原理,在《RAG 系统详解》里有深入拆解。
AI 搜索引擎的整体工作流程,可以看《AI 搜索引擎怎么工作》。
你的内容怎么进入 LLM 的上下文
从「用户提问」到「AI 引用你的内容」,中间经历了这些步骤:
用户提问
│
▼
① 意图解析:LLM 把问题分解成检索信号
│
▼
② 检索(粗筛):BM25 关键词匹配 + 向量语义搜索,
从索引库里召回几十到几百个候选 chunk
│
▼
③ 重排序(精排):Cross-Encoder Reranker 对每个候选
chunk 精细打分,选出最相关的 5–10 个
│
▼
④ 填入上下文窗口:被选中的 chunk 连同问题一起
塞进 LLM 的上下文
│
▼
⑤ 生成答案:LLM 基于上下文窗口里的内容逐 token 生成回答
同时生成引用来源
│
▼
用户看到的 AI 回答 + 引用链接
几个数字帮你建立直觉:
- 44.2% 的 AI 引用来自页面前 30% 的文字(来源:GEO 学术研究,Aggarwal et al., KDD 2024)——开头写得好不好,决定了你被引用的概率
- 500 token 左右是 RAG 系统常用的 chunk 大小——中文大概 300–400 字
- Perplexity 平均每个回答引用 21.87 个来源——进入这个名单,机会其实比你想的多
这里有一个我把它叫做**「上下文竞争原则」**的概念:你的每个内容 chunk 在 RAG 系统里都在跟其他网站的 chunk 竞争有限的上下文窗口名额。reranker 打分越高,进入窗口的概率越大。打分的核心维度:跟问题的语义相关度、内容的信息密度、来源的可信度。
这三条原则直接从 LLM 机制推导出来
理解了 LLM 怎么工作,有三条内容原则是自然推导出来的——不是经验法则,是从机制层面必然成立的结论。
原则一:首 chunk 原则
每个 H2 小节的前 300–400 字,是你最重要的「上下文窗口席位竞争者」。
原因:RAG 系统切 chunk 通常按段落或固定大小切割,第一个 chunk 包含的内容决定了这个小节能不能过 reranker 的精排关。如果第一个 chunk 的第一句话是背景铺垫(「自从 AI 出现以来,搜索行业发生了很多变化……」),reranker 会认为这个 chunk 跟用户问题关联度低。如果第一句话就是「命题式陈述」(「大语言模型的本质是预测下一个 token,不是理解语言」),关联度打分会高得多。
我在 GoEast 的 HSK 备考页上测过这个。原版每个备考技巧段落以「HSK 考试是中国汉语水平考试」开头,重写为每个技巧直接以可操作结论开头后,Perplexity 相关查询的引用在两周内出现了。改的只是第一句话的结构,其他内容没动。
做法:每个 H2 小节的第一句话,写成「X 是 Y」或「X 导致 Y」这种「命题式陈述」。把结论放在 chunk 最前面。
原则二:独立完整性原则(200 字独立测试)
把你的任意一个段落拎出来,脱离上下文读,它还完整吗?
因为 chunk 是被 RAG 单独提取的,如果你的段落依赖前面的内容才能看懂,这个 chunk 在 reranker 眼里就是不完整的信息,排名会受影响。
测试方法很简单:随机选一个 H2 下的段落,复制出来单独读。如果需要「参考上文」才能理解,就要重写。每个段落应该是一个自包含的知识单元——有论点、有证据、有结论,读完这一段就能得到完整的信息。这就是「200 字独立测试」。
原则三:知识新鲜度原则
参数化知识会过时,检索知识不会——前提是你的内容在被持续更新。
Perplexity 对超过 6 个月的内容,引用率急剧下降。原因之一就在这里:AI 搜索平台知道参数化知识有截止,所以它们在检索时给新鲜内容更高的权重,用来补充模型的过时信息。你的内容越新,它作为「检索知识」的价值就越高。
对于核心页面(支柱文章、产品核心页),建议每 7–14 天更新一次内容——哪怕只是更新一个数据点、加一条最新的行业信息。这个更新频率不是随意定的,来自 GEO 知识库的观测数据。
两个常见误区,顺带澄清一下
误区一:「我只要让 AI '记住'我的内容就行了」
不对。AI 的参数化知识你基本控制不了,而且就算进了训练数据,也不意味着会被引用。真正的战场是推理阶段的 RAG 检索——你需要让爬虫能抓到你的内容,内容质量能过 reranker 的精排,然后才能进入上下文窗口。
误区二:「上下文窗口越大,我的内容越容易被引用」
不一定。「中间迷失」现象说明,上下文窗口越大,中间位置的内容被忽视的风险反而越高。更大的窗口意味着 LLM 同时处理更多信息,但注意力分配是不均匀的。你能控制的不是窗口大小,而是你的 chunk 在窗口里的排位——排位取决于 reranker 的打分,也就是内容质量。
常见问题
ChatGPT 说了一个关于我公司的错误信息,我能要求它更正吗?
直接「要求更正」的渠道目前不存在。但你可以做两件事:(1)确保你自己的网站上有准确的信息,并且结构清晰——这样 RAG 检索时会覆盖错误的参数化知识;(2)在权威的第三方平台(Wikipedia、Crunchbase、行业媒体)发布准确的品牌信息——这些来源会进入训练数据,影响未来版本的参数化知识。这个过程需要几个月,不是立竿见影的。
LLM 的训练截止日期意味着什么?
意味着 AI 对截止日期之后的事情一无所知——除非通过 RAG 实时检索到。各模型截止日期不同,GPT-5.4 约在 2025 年初。如果你的产品在截止日期之后推出,模型参数里没有你的信息,但如果 ChatGPT Search 的 RAG 系统能抓到你的网站,依然可以在回答里引用你。所以越是新的品牌或产品,越要优先建立 RAG 可见性,而不是等着被纳入下一轮训练。
token 和汉字的换算关系是多少?
大致换算:1 个汉字 ≈ 0.5–0.7 个 token(OpenAI 的 tokenizer 通常把一个常见汉字编码为 1–2 个 token,常见词可能更少)。实操记忆:1000 个 token ≈ 600–700 个汉字。所以 GPT-5.4 的 API 端 100 万 token 窗口,理论上能装约 60 万–75 万汉字;但 AI 搜索场景里 RAG 每次只取少量 chunk,实际进入上下文的内容量远小于上限。
上下文窗口越大越好吗?
对用户来说,大窗口意味着可以处理更长的对话和文档。但对 GEO 优化来说,更大的窗口不一定带来更好的引用概率——「中间迷失」问题说明,大窗口里中间位置的内容关注度反而下降。你应该关注的是内容能不能通过 reranker 精排(这决定你在窗口里的位置),而不是窗口本身有多大。
做 GEO 需要理解 Transformer 架构吗?
不需要。你需要知道三件事就够了:(1)LLM 是 token 预测器,不是「理解」系统;(2)AI 搜索用 RAG,意味着你的内容需要在检索阶段被选中;(3)上下文窗口有限,你的内容块要竞争名额,质量决定排位。其他技术细节对内容策略几乎没有直接影响。