← GEO Tutorial Series
AI TechnicalP2-01

大语言模型到底是怎么生成答案的:给营销人的技术入门课

2026-03-31·26 min read

大语言模型到底是怎么生成答案的:给营销人的技术入门课

做营销的人,大概率不需要懂怎么训练模型,也不需要读懂每一行 Python(当然懂这些的话竞争力就更高了)。但如果我们想做好 GEO——让 AI 在回答里引用我们的内容——必须搞清楚 LLM(大语言模型)是怎么工作的。因为它的工作方式,直接决定了什么内容会被选中、什么内容会被跳过。

这篇我会用几个类比把 LLM 的核心机制说清楚。会适当触及一些技术细节,但不多——能指导内容策略就够了,不需要去理解反向传播算法。

读完这篇你会搞明白几件事:

  1. LLM 的本质是什么——它不是在"理解",它在做一件更简单(也更神奇)的事
  2. 训练和推理是两个完全不同的阶段——你的内容在这两个阶段扮演不同角色
  3. 上下文窗口——LLM 的「工作台」有多大,以及为什么你的内容在里面要排队竞争
  4. 参数化知识 vs 检索知识——为什么 AI 会一本正经地说胡说八道,以及 RAG 系统是怎么解决这个问题的
  5. 这些对我们写内容意味着什么——从 LLM 机制出发的三条实操原则

关于 GEO 的整体框架,可以先看站内文章《GEO 是什么》;术语不熟悉的话,《GEO 术语表》可以随时查阅。


LLM 的本质:预测下一个词

大语言模型做的事情,用一句话说就是:给定前面的文字,预测下一个最可能出现的词(token)

听起来太简单了。但就是这个简单的预测任务,在海量数据上反复训练之后,产生了 ChatGPT、Claude、Gemini 这些看起来「聪明」的 AI。

打个比方。你跟朋友说"今天北京的天气真的……",朋友会接"冷啊""热啊""差劲啊"——因为他们见过太多类似的句子,知道后面跟什么最自然。LLM 干的事情跟这个一样,只不过它"见过"的句子是整个互联网,数量级是万亿级别。

有一点很关键:LLM 没有「理解」,它在做极其精细的模式匹配。它不知道「北京」是一个城市,不知道「天气」指大气状态——它只知道这些词在上下文里通常跟什么搭配。之所以结果看起来像在「理解」,是因为训练数据足够大,模式足够复杂。

这对你有什么影响?划重点:AI 引用的内容,是它认为在这个对话上下文里「最该出现」的内容。所以你的内容要做的,是让自己成为那个「最该出现」的答案。


训练 vs 推理:两个完全不同的阶段

很多人把「AI 学过你的内容」和「AI 会引用你的内容」混为一谈。但这其实是两件事,发生在两个阶段。

┌─────────────────────────────────────────────────────────────────┐
│                                                                 │
│   阶段一:训练(Training)                                        │
│                                                                 │
│   互联网文本 ──→ 分词(Tokenization)──→ 大量梯度更新            │
│   (万亿 tokens)       ↓                      ↓               │
│                    模型参数 ←──────── 调整权重(反复迭代)        │
│                                                                 │
│   结果:模型「记住」了语言规律和世界知识(参数化知识)             │
│   特点:有截止日期、一次性、不可实时更新                          │
│                                                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   阶段二:推理(Inference)                                       │
│                                                                 │
│   用户提问 ──→ 检索相关内容(RAG)──→ 填入上下文窗口              │
│                      ↓                        ↓               │
│               训练好的模型 ←────────── 生成回答(逐 token)       │
│                                                                 │
│   结果:基于上下文窗口里的信息生成答案(检索知识)                  │
│   特点:实时、每次查询独立、可插入新鲜内容                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘
维度训练阶段推理阶段
时间模型发布前,一次性完成每次用户提问时实时发生
你的内容角色可能成为训练语料(参数化知识)通过 RAG 被检索并填入上下文(检索知识)
你能控制的几乎不能(内容是否进入训练集取决于爬虫和数据筛选)完全可以(优化内容结构、保持内容更新、确保爬虫可访问)
知识截止有截止日期(各模型不同,GPT-5.4 截止约 2025 年初)没有截止,每次可获取最新内容

一个重要推论:做 GEO,你真正能影响的是推理阶段,不是训练阶段。你无法控制自己的内容有没有进入 GPT-5.4 的训练数据,但你完全可以控制你的内容在 RAG 检索时能不能被找到、被选中。

这也是为什么 GEO 的核心是「让 AI 搜索引擎能检索、能解析、能引用你的内容」,而不是「想办法让 AI 把你的内容记到参数里」——后者基本不在你的控制范围内。


上下文窗口:LLM 工作时的「工作台」

LLM 在生成一个回答时,能「看到」的内容是有限的。这个限制就叫上下文窗口(Context Window)——它决定了 LLM 在生成回答时同时能处理的文字量。关于向量嵌入怎么把你的内容编码进这个系统,可以看《向量嵌入是什么》

把它想象成一张桌子。桌子有固定的面积,只能把有限的资料摆上去。LLM 每次回答问题时,都会把以下内容塞进这张桌子:

┌──────────────────────────────────────────────────────────┐
│                     上下文窗口                            │
│  ┌──────────────┐  ┌──────────────┐  ┌────────────────┐  │
│  │ 系统提示词   │  │ 检索到的内容  │  │  用户的问题    │  │
│  │ (System      │  │ (RAG 召回的  │  │  + 对话历史   │  │
│  │  Prompt)     │  │  文档片段)   │  │               │  │
│  └──────────────┘  └──────────────┘  └────────────────┘  │
│        ↑                  ↑                  ↑           │
│    固定占用           竞争的核心区域         用户输入       │
└──────────────────────────────────────────────────────────┘
                    LLM 基于这些内容生成答案 ↓

主流模型的上下文窗口大小(数据截止 2026 年 3 月):

模型上下文窗口大约等于备注
GPT-5.4(OpenAI 现旗舰)1,000,000 tokens(API)/ 272,000 tokens(ChatGPT 标准)~75 万 / ~20 万汉字GPT-4o 已被取代,API 端窗口扩大至 100 万
Claude Sonnet 4.61,000,000 tokens~75 万汉字2026 年 3 月正式 GA,100 万 token
Gemini 2.5 Pro(Google 现旗舰)1,000,000 tokens(2M 即将推出)~75 万汉字Gemini 1.5 Pro 已被 2.5 Pro 取代
Gemini 2.0 Flash1,048,576 tokens~78 万汉字无变化
DeepSeek-V3.2128,000 tokens~10 万汉字引入 DSA 稀疏注意力机制提升长文本效率

窗口看起来很大,但实际情况是:AI 搜索引擎在用 RAG 填充上下文时,不会把整个网页塞进去。它会先把你的内容切成几百个 token 的小块(chunk),然后只把最相关的几块放进上下文窗口。

这里有一个很重要但很少被提到的现象,AI 工程师叫它 「中间迷失」(Lost in the Middle):Stanford 和 UC Berkeley 的研究(Liu et al., 2023)发现,当大量信息被塞进上下文窗口时,位置靠前和靠后的内容被模型关注到的概率远高于中间部分。

换句话说,你的内容 chunk 在上下文里的位置影响它被引用的概率。被 RAG 系统排在前面的 chunk,比排在后面的更有优势。RAG 系统怎么排序?靠 reranker——也就是说,内容质量决定了你在窗口里的座次。


参数化知识 vs 检索知识

LLM 生成答案时用的知识来自两个地方。搞清楚这两种知识的区别,是理解「AI 为什么会出错」以及「你能做什么」的基础。关于知识截止日期和实时检索的详细机制,可以看《AI 知识截止、接地与实时搜索》

参数化知识(Parametric Knowledge):训练时「记」进模型权重里的知识。这些知识是固化的——一旦训练完成,不会自动更新。每个模型都有各自的训练截止日期,GPT-5.4 的训练截止约在 2025 年初,它对此之后发生的事情一无所知。

检索知识(Retrieved Knowledge):推理时通过 RAG 实时检索到、并填入上下文窗口的知识。这是新鲜的——只要你的内容被爬虫索引了,今天发布的文章今天就可能被引用。

对比维度参数化知识检索知识
存储位置模型权重(神经网络参数)外部知识库 / 互联网
更新方式重新训练(成本极高)实时检索(每次推理)
新鲜度有截止日期实时
可信度可能有幻觉(Hallucination)基于真实来源,但依赖来源质量
你能影响吗基本不能完全可以
GEO 相关性低(无法控制)高(GEO 优化的核心战场)

「幻觉」的根本原因就在这里:当 LLM 被问到一个它的参数化知识里没有准确答案的问题时,它不会说「我不知道」——它会继续预测「下一个最可能的 token」,结果生成了听起来很合理但完全错误的内容。

RAG 系统的出现,就是为了用检索知识来补充和纠正参数化知识。大多数 AI 搜索引擎(Perplexity、ChatGPT Search、Google AI Overviews)都是 RAG 系统——它们用 LLM 的语言能力来生成回答,但把生成的基础换成了实时检索到的内容,而不是靠「记忆」。这也是为什么这些平台能引用最新的内容——只要你的内容被它们的爬虫抓到了,就有机会进入回答。RAG 的完整工作原理,在《RAG 系统详解》里有深入拆解。

AI 搜索引擎的整体工作流程,可以看《AI 搜索引擎怎么工作》


你的内容怎么进入 LLM 的上下文

从「用户提问」到「AI 引用你的内容」,中间经历了这些步骤:

用户提问
   │
   ▼
① 意图解析:LLM 把问题分解成检索信号
   │
   ▼
② 检索(粗筛):BM25 关键词匹配 + 向量语义搜索,
   从索引库里召回几十到几百个候选 chunk
   │
   ▼
③ 重排序(精排):Cross-Encoder Reranker 对每个候选
   chunk 精细打分,选出最相关的 5–10 个
   │
   ▼
④ 填入上下文窗口:被选中的 chunk 连同问题一起
   塞进 LLM 的上下文
   │
   ▼
⑤ 生成答案:LLM 基于上下文窗口里的内容逐 token 生成回答
   同时生成引用来源
   │
   ▼
用户看到的 AI 回答 + 引用链接

几个数字帮你建立直觉:

  • 44.2% 的 AI 引用来自页面前 30% 的文字(来源:GEO 学术研究,Aggarwal et al., KDD 2024)——开头写得好不好,决定了你被引用的概率
  • 500 token 左右是 RAG 系统常用的 chunk 大小——中文大概 300–400 字
  • Perplexity 平均每个回答引用 21.87 个来源——进入这个名单,机会其实比你想的多

这里有一个我把它叫做**「上下文竞争原则」**的概念:你的每个内容 chunk 在 RAG 系统里都在跟其他网站的 chunk 竞争有限的上下文窗口名额。reranker 打分越高,进入窗口的概率越大。打分的核心维度:跟问题的语义相关度、内容的信息密度、来源的可信度。


这三条原则直接从 LLM 机制推导出来

理解了 LLM 怎么工作,有三条内容原则是自然推导出来的——不是经验法则,是从机制层面必然成立的结论。

原则一:首 chunk 原则

每个 H2 小节的前 300–400 字,是你最重要的「上下文窗口席位竞争者」。

原因:RAG 系统切 chunk 通常按段落或固定大小切割,第一个 chunk 包含的内容决定了这个小节能不能过 reranker 的精排关。如果第一个 chunk 的第一句话是背景铺垫(「自从 AI 出现以来,搜索行业发生了很多变化……」),reranker 会认为这个 chunk 跟用户问题关联度低。如果第一句话就是「命题式陈述」(「大语言模型的本质是预测下一个 token,不是理解语言」),关联度打分会高得多。

我在 GoEast 的 HSK 备考页上测过这个。原版每个备考技巧段落以「HSK 考试是中国汉语水平考试」开头,重写为每个技巧直接以可操作结论开头后,Perplexity 相关查询的引用在两周内出现了。改的只是第一句话的结构,其他内容没动。

做法:每个 H2 小节的第一句话,写成「X 是 Y」或「X 导致 Y」这种「命题式陈述」。把结论放在 chunk 最前面。

原则二:独立完整性原则(200 字独立测试)

把你的任意一个段落拎出来,脱离上下文读,它还完整吗?

因为 chunk 是被 RAG 单独提取的,如果你的段落依赖前面的内容才能看懂,这个 chunk 在 reranker 眼里就是不完整的信息,排名会受影响。

测试方法很简单:随机选一个 H2 下的段落,复制出来单独读。如果需要「参考上文」才能理解,就要重写。每个段落应该是一个自包含的知识单元——有论点、有证据、有结论,读完这一段就能得到完整的信息。这就是「200 字独立测试」。

原则三:知识新鲜度原则

参数化知识会过时,检索知识不会——前提是你的内容在被持续更新。

Perplexity 对超过 6 个月的内容,引用率急剧下降。原因之一就在这里:AI 搜索平台知道参数化知识有截止,所以它们在检索时给新鲜内容更高的权重,用来补充模型的过时信息。你的内容越新,它作为「检索知识」的价值就越高。

对于核心页面(支柱文章、产品核心页),建议每 7–14 天更新一次内容——哪怕只是更新一个数据点、加一条最新的行业信息。这个更新频率不是随意定的,来自 GEO 知识库的观测数据。


两个常见误区,顺带澄清一下

误区一:「我只要让 AI '记住'我的内容就行了」

不对。AI 的参数化知识你基本控制不了,而且就算进了训练数据,也不意味着会被引用。真正的战场是推理阶段的 RAG 检索——你需要让爬虫能抓到你的内容,内容质量能过 reranker 的精排,然后才能进入上下文窗口。

误区二:「上下文窗口越大,我的内容越容易被引用」

不一定。「中间迷失」现象说明,上下文窗口越大,中间位置的内容被忽视的风险反而越高。更大的窗口意味着 LLM 同时处理更多信息,但注意力分配是不均匀的。你能控制的不是窗口大小,而是你的 chunk 在窗口里的排位——排位取决于 reranker 的打分,也就是内容质量。


常见问题

ChatGPT 说了一个关于我公司的错误信息,我能要求它更正吗?

直接「要求更正」的渠道目前不存在。但你可以做两件事:(1)确保你自己的网站上有准确的信息,并且结构清晰——这样 RAG 检索时会覆盖错误的参数化知识;(2)在权威的第三方平台(Wikipedia、Crunchbase、行业媒体)发布准确的品牌信息——这些来源会进入训练数据,影响未来版本的参数化知识。这个过程需要几个月,不是立竿见影的。

LLM 的训练截止日期意味着什么?

意味着 AI 对截止日期之后的事情一无所知——除非通过 RAG 实时检索到。各模型截止日期不同,GPT-5.4 约在 2025 年初。如果你的产品在截止日期之后推出,模型参数里没有你的信息,但如果 ChatGPT Search 的 RAG 系统能抓到你的网站,依然可以在回答里引用你。所以越是新的品牌或产品,越要优先建立 RAG 可见性,而不是等着被纳入下一轮训练。

token 和汉字的换算关系是多少?

大致换算:1 个汉字 ≈ 0.5–0.7 个 token(OpenAI 的 tokenizer 通常把一个常见汉字编码为 1–2 个 token,常见词可能更少)。实操记忆:1000 个 token ≈ 600–700 个汉字。所以 GPT-5.4 的 API 端 100 万 token 窗口,理论上能装约 60 万–75 万汉字;但 AI 搜索场景里 RAG 每次只取少量 chunk,实际进入上下文的内容量远小于上限。

上下文窗口越大越好吗?

对用户来说,大窗口意味着可以处理更长的对话和文档。但对 GEO 优化来说,更大的窗口不一定带来更好的引用概率——「中间迷失」问题说明,大窗口里中间位置的内容关注度反而下降。你应该关注的是内容能不能通过 reranker 精排(这决定你在窗口里的位置),而不是窗口本身有多大。

做 GEO 需要理解 Transformer 架构吗?

不需要。你需要知道三件事就够了:(1)LLM 是 token 预测器,不是「理解」系统;(2)AI 搜索用 RAG,意味着你的内容需要在检索阶段被选中;(3)上下文窗口有限,你的内容块要竞争名额,质量决定排位。其他技术细节对内容策略几乎没有直接影响。