大语言模型到底是怎么生成答案的：给营销人的技术入门课

Q: ChatGPT说了一个关于我公司的错误信息，我能要求它更正吗？

直接要求更正的渠道目前不存在。但可以：确保自己网站有准确信息且结构清晰（RAG检索时会覆盖错误的参数化知识），以及在权威第三方平台（Wikipedia、Crunchbase、行业媒体）发布准确的品牌信息。这个过程需要几个月。

Q: LLM的训练截止日期意味着什么？

意味着AI对截止日期之后的事情一无所知，除非通过RAG实时检索到。各模型截止日期不同，GPT-5.4约在2025年初。越是新的品牌或产品，越要优先建立RAG可见性，而不是等着被纳入下一轮训练数据。

Q: token和汉字的换算关系是多少？

大致换算：1个汉字约等于0.5–0.7个token。实操记忆：1000个token约等于600–700个汉字。GPT-5.4的API端100万token窗口理论上能装约60万–75万汉字，但AI搜索场景下RAG每次只取少量chunk，实际进入上下文的远小于上限。

Q: 上下文窗口越大越好吗？

不一定。「中间迷失」现象说明，上下文窗口越大，中间位置的内容被忽视的风险反而越高。你应该关注的是内容能不能通过reranker精排，而不是窗口本身有多大。

Q: 做GEO需要理解Transformer架构吗？

不需要。只需要知道三件事：LLM是token预测器不是理解系统；AI搜索用RAG意味着内容需要在检索阶段被选中；上下文窗口有限内容块要竞争名额质量决定排位。

做营销的人，大概率不需要懂怎么训练模型，也不需要读懂每一行 Python（当然懂这些的话竞争力就更高了）。但如果我们想做好 GEO——让 AI 在回答里引用我们的内容——必须搞清楚 LLM（大语言模型）是怎么工作的。因为它的工作方式，直接决定了什么内容会被选中、什么内容会被跳过。

这篇我会用几个类比把 LLM 的核心机制说清楚。会适当触及一些技术细节，但不多——能指导内容策略就够了，不需要去理解反向传播算法。

读完这篇你会搞明白几件事：

LLM 的本质是什么——它不是在"理解"，它在做一件更简单（也更神奇）的事
训练和推理是两个完全不同的阶段——你的内容在这两个阶段扮演不同角色
上下文窗口——LLM 的「工作台」有多大，以及为什么你的内容在里面要排队竞争
参数化知识 vs 检索知识——为什么 AI 会一本正经地说胡说八道，以及 RAG 系统是怎么解决这个问题的
这些对我们写内容意味着什么——从 LLM 机制出发的三条实操原则

关于 GEO 的整体框架，可以先看站内文章《GEO 是什么》；术语不熟悉的话，《GEO 术语表》可以随时查阅。

LLM 的本质：预测下一个词

大语言模型做的事情，用一句话说就是：给定前面的文字，预测下一个最可能出现的词（token）。

听起来太简单了。但就是这个简单的预测任务，在海量数据上反复训练之后，产生了 ChatGPT、Claude、Gemini 这些看起来「聪明」的 AI。

打个比方。你跟朋友说"今天北京的天气真的……"，朋友会接"冷啊""热啊""差劲啊"——因为他们见过太多类似的句子，知道后面跟什么最自然。LLM 干的事情跟这个一样，只不过它"见过"的句子是整个互联网，数量级是万亿级别。

有一点很关键：LLM 没有「理解」，它在做极其精细的模式匹配。它不知道「北京」是一个城市，不知道「天气」指大气状态——它只知道这些词在上下文里通常跟什么搭配。之所以结果看起来像在「理解」，是因为训练数据足够大，模式足够复杂。

这对你有什么影响？划重点：AI 引用的内容，是它认为在这个对话上下文里「最该出现」的内容。所以你的内容要做的，是让自己成为那个「最该出现」的答案。

训练 vs 推理：两个完全不同的阶段

很多人把「AI 学过你的内容」和「AI 会引用你的内容」混为一谈。但这其实是两件事，发生在两个阶段。

┌─────────────────────────────────────────────────────────────────┐
│                                                                 │
│   阶段一：训练（Training）                                        │
│                                                                 │
│   互联网文本 ──→ 分词（Tokenization）──→ 大量梯度更新            │
│   （万亿 tokens）       ↓                      ↓               │
│                    模型参数 ←──────── 调整权重（反复迭代）        │
│                                                                 │
│   结果：模型「记住」了语言规律和世界知识（参数化知识）             │
│   特点：有截止日期、一次性、不可实时更新                          │
│                                                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   阶段二：推理（Inference）                                       │
│                                                                 │
│   用户提问 ──→ 检索相关内容（RAG）──→ 填入上下文窗口              │
│                      ↓                        ↓               │
│               训练好的模型 ←────────── 生成回答（逐 token）       │
│                                                                 │
│   结果：基于上下文窗口里的信息生成答案（检索知识）                  │
│   特点：实时、每次查询独立、可插入新鲜内容                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

维度	训练阶段	推理阶段
时间	模型发布前，一次性完成	每次用户提问时实时发生
你的内容角色	可能成为训练语料（参数化知识）	通过 RAG 被检索并填入上下文（检索知识）
你能控制的	几乎不能（内容是否进入训练集取决于爬虫和数据筛选）	完全可以（优化内容结构、保持内容更新、确保爬虫可访问）
知识截止	有截止日期（各模型不同，GPT-5.4 截止约 2025 年初）	没有截止，每次可获取最新内容

一个重要推论：做 GEO，你真正能影响的是推理阶段，不是训练阶段。你无法控制自己的内容有没有进入 GPT-5.4 的训练数据，但你完全可以控制你的内容在 RAG 检索时能不能被找到、被选中。

这也是为什么 GEO 的核心是「让 AI 搜索引擎能检索、能解析、能引用你的内容」，而不是「想办法让 AI 把你的内容记到参数里」——后者基本不在你的控制范围内。

上下文窗口：LLM 工作时的「工作台」

LLM 在生成一个回答时，能「看到」的内容是有限的。这个限制就叫上下文窗口（Context Window）——它决定了 LLM 在生成回答时同时能处理的文字量。关于向量嵌入怎么把你的内容编码进这个系统，可以看《向量嵌入是什么》。

把它想象成一张桌子。桌子有固定的面积，只能把有限的资料摆上去。LLM 每次回答问题时，都会把以下内容塞进这张桌子：

┌──────────────────────────────────────────────────────────┐
│                     上下文窗口                            │
│  ┌──────────────┐  ┌──────────────┐  ┌────────────────┐  │
│  │ 系统提示词   │  │ 检索到的内容  │  │  用户的问题    │  │
│  │ (System      │  │ (RAG 召回的  │  │  + 对话历史   │  │
│  │  Prompt)     │  │  文档片段)   │  │               │  │
│  └──────────────┘  └──────────────┘  └────────────────┘  │
│        ↑                  ↑                  ↑           │
│    固定占用           竞争的核心区域         用户输入       │
└──────────────────────────────────────────────────────────┘
                    LLM 基于这些内容生成答案 ↓

主流模型的上下文窗口大小（数据截止 2026 年 3 月）：

模型	上下文窗口	大约等于	备注
GPT-5.4（OpenAI 现旗舰）	1,000,000 tokens（API）/ 272,000 tokens（ChatGPT 标准）	~75 万 / ~20 万汉字	GPT-4o 已被取代，API 端窗口扩大至 100 万
Claude Sonnet 4.6	1,000,000 tokens	~75 万汉字	2026 年 3 月正式 GA，100 万 token
Gemini 2.5 Pro（Google 现旗舰）	1,000,000 tokens（2M 即将推出）	~75 万汉字	Gemini 1.5 Pro 已被 2.5 Pro 取代
Gemini 2.0 Flash	1,048,576 tokens	~78 万汉字	无变化
DeepSeek-V3.2	128,000 tokens	~10 万汉字	引入 DSA 稀疏注意力机制提升长文本效率

窗口看起来很大，但实际情况是：AI 搜索引擎在用 RAG 填充上下文时，不会把整个网页塞进去。它会先把你的内容切成几百个 token 的小块（chunk），然后只把最相关的几块放进上下文窗口。

这里有一个很重要但很少被提到的现象，AI 工程师叫它 「中间迷失」（Lost in the Middle）：Stanford 和 UC Berkeley 的研究（Liu et al., 2023）发现，当大量信息被塞进上下文窗口时，位置靠前和靠后的内容被模型关注到的概率远高于中间部分。

换句话说，你的内容 chunk 在上下文里的位置影响它被引用的概率。被 RAG 系统排在前面的 chunk，比排在后面的更有优势。RAG 系统怎么排序？靠 reranker——也就是说，内容质量决定了你在窗口里的座次。

参数化知识 vs 检索知识

LLM 生成答案时用的知识来自两个地方。搞清楚这两种知识的区别，是理解「AI 为什么会出错」以及「你能做什么」的基础。关于知识截止日期和实时检索的详细机制，可以看《AI 知识截止、接地与实时搜索》。

参数化知识（Parametric Knowledge）：训练时「记」进模型权重里的知识。这些知识是固化的——一旦训练完成，不会自动更新。每个模型都有各自的训练截止日期，GPT-5.4 的训练截止约在 2025 年初，它对此之后发生的事情一无所知。

检索知识（Retrieved Knowledge）：推理时通过 RAG 实时检索到、并填入上下文窗口的知识。这是新鲜的——只要你的内容被爬虫索引了，今天发布的文章今天就可能被引用。

对比维度	参数化知识	检索知识
存储位置	模型权重（神经网络参数）	外部知识库 / 互联网
更新方式	重新训练（成本极高）	实时检索（每次推理）
新鲜度	有截止日期	实时
可信度	可能有幻觉（Hallucination）	基于真实来源，但依赖来源质量
你能影响吗	基本不能	完全可以
GEO 相关性	低（无法控制）	高（GEO 优化的核心战场）

「幻觉」的根本原因就在这里：当 LLM 被问到一个它的参数化知识里没有准确答案的问题时，它不会说「我不知道」——它会继续预测「下一个最可能的 token」，结果生成了听起来很合理但完全错误的内容。

RAG 系统的出现，就是为了用检索知识来补充和纠正参数化知识。大多数 AI 搜索引擎（Perplexity、ChatGPT Search、Google AI Overviews）都是 RAG 系统——它们用 LLM 的语言能力来生成回答，但把生成的基础换成了实时检索到的内容，而不是靠「记忆」。这也是为什么这些平台能引用最新的内容——只要你的内容被它们的爬虫抓到了，就有机会进入回答。RAG 的完整工作原理，在《RAG 系统详解》里有深入拆解。

AI 搜索引擎的整体工作流程，可以看《AI 搜索引擎怎么工作》。

你的内容怎么进入 LLM 的上下文

从「用户提问」到「AI 引用你的内容」，中间经历了这些步骤：

用户提问
   │
   ▼
① 意图解析：LLM 把问题分解成检索信号
   │
   ▼
② 检索（粗筛）：BM25 关键词匹配 + 向量语义搜索，
   从索引库里召回几十到几百个候选 chunk
   │
   ▼
③ 重排序（精排）：Cross-Encoder Reranker 对每个候选
   chunk 精细打分，选出最相关的 5–10 个
   │
   ▼
④ 填入上下文窗口：被选中的 chunk 连同问题一起
   塞进 LLM 的上下文
   │
   ▼
⑤ 生成答案：LLM 基于上下文窗口里的内容逐 token 生成回答
   同时生成引用来源
   │
   ▼
用户看到的 AI 回答 + 引用链接

几个数字帮你建立直觉：

44.2% 的 AI 引用来自页面前 30% 的文字（来源：GEO 学术研究，Aggarwal et al., KDD 2024）——开头写得好不好，决定了你被引用的概率
500 token 左右是 RAG 系统常用的 chunk 大小——中文大概 300–400 字
Perplexity 平均每个回答引用 21.87 个来源——进入这个名单，机会其实比你想的多

这里有一个我把它叫做**「上下文竞争原则」**的概念：你的每个内容 chunk 在 RAG 系统里都在跟其他网站的 chunk 竞争有限的上下文窗口名额。reranker 打分越高，进入窗口的概率越大。打分的核心维度：跟问题的语义相关度、内容的信息密度、来源的可信度。

这三条原则直接从 LLM 机制推导出来

理解了 LLM 怎么工作，有三条内容原则是自然推导出来的——不是经验法则，是从机制层面必然成立的结论。

原则一：首 chunk 原则

每个 H2 小节的前 300–400 字，是你最重要的「上下文窗口席位竞争者」。

原因：RAG 系统切 chunk 通常按段落或固定大小切割，第一个 chunk 包含的内容决定了这个小节能不能过 reranker 的精排关。如果第一个 chunk 的第一句话是背景铺垫（「自从 AI 出现以来，搜索行业发生了很多变化……」），reranker 会认为这个 chunk 跟用户问题关联度低。如果第一句话就是「命题式陈述」（「大语言模型的本质是预测下一个 token，不是理解语言」），关联度打分会高得多。

我在 GoEast 的 HSK 备考页上测过这个。原版每个备考技巧段落以「HSK 考试是中国汉语水平考试」开头，重写为每个技巧直接以可操作结论开头后，Perplexity 相关查询的引用在两周内出现了。改的只是第一句话的结构，其他内容没动。

做法：每个 H2 小节的第一句话，写成「X 是 Y」或「X 导致 Y」这种「命题式陈述」。把结论放在 chunk 最前面。

原则二：独立完整性原则（200 字独立测试）

把你的任意一个段落拎出来，脱离上下文读，它还完整吗？

因为 chunk 是被 RAG 单独提取的，如果你的段落依赖前面的内容才能看懂，这个 chunk 在 reranker 眼里就是不完整的信息，排名会受影响。

测试方法很简单：随机选一个 H2 下的段落，复制出来单独读。如果需要「参考上文」才能理解，就要重写。每个段落应该是一个自包含的知识单元——有论点、有证据、有结论，读完这一段就能得到完整的信息。这就是「200 字独立测试」。

原则三：知识新鲜度原则

参数化知识会过时，检索知识不会——前提是你的内容在被持续更新。

Perplexity 对超过 6 个月的内容，引用率急剧下降。原因之一就在这里：AI 搜索平台知道参数化知识有截止，所以它们在检索时给新鲜内容更高的权重，用来补充模型的过时信息。你的内容越新，它作为「检索知识」的价值就越高。

对于核心页面（支柱文章、产品核心页），建议每 7–14 天更新一次内容——哪怕只是更新一个数据点、加一条最新的行业信息。这个更新频率不是随意定的，来自 GEO 知识库的观测数据。

两个常见误区，顺带澄清一下

误区一：「我只要让 AI '记住'我的内容就行了」

不对。AI 的参数化知识你基本控制不了，而且就算进了训练数据，也不意味着会被引用。真正的战场是推理阶段的 RAG 检索——你需要让爬虫能抓到你的内容，内容质量能过 reranker 的精排，然后才能进入上下文窗口。

误区二：「上下文窗口越大，我的内容越容易被引用」

不一定。「中间迷失」现象说明，上下文窗口越大，中间位置的内容被忽视的风险反而越高。更大的窗口意味着 LLM 同时处理更多信息，但注意力分配是不均匀的。你能控制的不是窗口大小，而是你的 chunk 在窗口里的排位——排位取决于 reranker 的打分，也就是内容质量。

常见问题

ChatGPT 说了一个关于我公司的错误信息，我能要求它更正吗？

直接「要求更正」的渠道目前不存在。但你可以做两件事：（1）确保你自己的网站上有准确的信息，并且结构清晰——这样 RAG 检索时会覆盖错误的参数化知识；（2）在权威的第三方平台（Wikipedia、Crunchbase、行业媒体）发布准确的品牌信息——这些来源会进入训练数据，影响未来版本的参数化知识。这个过程需要几个月，不是立竿见影的。

LLM 的训练截止日期意味着什么？

意味着 AI 对截止日期之后的事情一无所知——除非通过 RAG 实时检索到。各模型截止日期不同，GPT-5.4 约在 2025 年初。如果你的产品在截止日期之后推出，模型参数里没有你的信息，但如果 ChatGPT Search 的 RAG 系统能抓到你的网站，依然可以在回答里引用你。所以越是新的品牌或产品，越要优先建立 RAG 可见性，而不是等着被纳入下一轮训练。

token 和汉字的换算关系是多少？

大致换算：1 个汉字 ≈ 0.5–0.7 个 token（OpenAI 的 tokenizer 通常把一个常见汉字编码为 1–2 个 token，常见词可能更少）。实操记忆：1000 个 token ≈ 600–700 个汉字。所以 GPT-5.4 的 API 端 100 万 token 窗口，理论上能装约 60 万–75 万汉字；但 AI 搜索场景里 RAG 每次只取少量 chunk，实际进入上下文的内容量远小于上限。

上下文窗口越大越好吗？

对用户来说，大窗口意味着可以处理更长的对话和文档。但对 GEO 优化来说，更大的窗口不一定带来更好的引用概率——「中间迷失」问题说明，大窗口里中间位置的内容关注度反而下降。你应该关注的是内容能不能通过 reranker 精排（这决定你在窗口里的位置），而不是窗口本身有多大。

做 GEO 需要理解 Transformer 架构吗？

不需要。你需要知道三件事就够了：（1）LLM 是 token 预测器，不是「理解」系统；（2）AI 搜索用 RAG，意味着你的内容需要在检索阶段被选中；（3）上下文窗口有限，你的内容块要竞争名额，质量决定排位。其他技术细节对内容策略几乎没有直接影响。