我重学大模型最难的一章，终于看懂它为什么像懂你

type

status

date

slug

summary

我重学大模型最难的一章，终于看懂它为什么像懂你

前段时间我把大语言模型基础又重学了一遍。

不是因为突然想补一门课。

是因为我发现，自己已经天天在用模型、写 Prompt、看 Agent、搭工作流了，可一旦有人把 N-gram、RNN、Attention、Token、SFT 这些词一口气摆出来，我脑子里那条线还是会断。

这件事其实挺真实的。

你会用，不等于你真的想顺了。

尤其大模型这条线，最容易把人带偏的地方，不是它太难，而是它太像懂了。你很容易直接从 ChatGPT 这种成品往回看，于是默认它一开始就在理解世界、回答问题、扮演助手。

我以前就是这么想的。

后来我自己又顺着这条线重新走了一遍，才慢慢把一个顺序想对。

大模型不是先学会理解，再学会表达。

它更像是先把接话这件事做到极强，然后一点点长出语义表示、上下文处理、全局注意力，再被对齐成一个像助手的系统。

如果这篇最后只留一句话，我想留这句：

大模型表面上像在理解你，底层其实是从预测下一个 token 一路长出来的。

这篇我也不想写成教材。

我更想把我这次真正学顺的那条线，用人话重新讲一遍。讲给刚入门时总会被术语推着走的人，也讲给之前那个每个词都认识、连起来还是懵的自己。

一、我最先想反的，不是 Transformer，而是大模型的起点

我一开始最容易被大模型震到的地方，是它太像一个什么都懂的系统了。

你问它问题，它会答。

你让它写代码，它会写。

你让它总结一段话，它也能很快整理得像模像样。

可如果把镜头往前推，你会发现大模型最早解决的，其实不是理解世界，而是另一件朴素得多的事。

一句话写到这里，下一个词最可能是什么。

N-gram 干的就是这件事。

比如你写到“今天的天气很”，它会根据训练里见过的统计规律，去猜后面更可能接“热”“冷”还是“好”。

听起来很简单，甚至有点土。

但这一步特别关键。

因为你一旦接受大模型的起点是接话，后面很多能力就没那么神秘了。它不是上来就懂意思，而是先在大规模语言里，把怎样往下接更像人类会说的话学得越来越强。

但 N-gram 很快就会撞墙。

它最大的问题，不只是数据稀疏，也不只是上下文窗口太短。我现在更愿意把它的问题说得直接一点，它完全不会迁移。

它只认自己见过的组合。

你一换说法，它就容易断。

它不知道 agent 和 robot 很接近。

它也不知道“写代码”和“编程”很多时候说的是一回事。

所以后面词向量才那么重要。

因为从那一步开始，词不再只是一个个孤零零的符号。它们被放进了连续空间里，彼此之间开始有距离、有方向、有关系。模型终于不只是背句子了，它开始把语言压成一张关系网。

说到这里，我这次真正建立起来的第一个直觉其实就是：

大模型后面的很多“像理解”，都不是凭空冒出来的，而是从“更会表示语言关系”一步步长出来的。

二、模型里的“记忆”，不是记住，而是前面的信息别掉线

学到 RNN 的时候，我以前也很容易被一个词骗到，就是“记忆”。

一看到这个词，人会本能地把它往人的感觉上靠。好像模型也在脑子里存东西，后面再调出来用。

后来我才慢慢想明白，不是这么回事。

对模型来说，所谓记忆，更接近一件工程问题。

前面出现过的信息，到了后面还能不能继续影响当前计算。

N-gram 的问题是上下文太短。它最多只盯着前面有限几个词，可真实语言经常不是这样。很多意思，要往前看很长一段才会明白。

RNN 想解决的，就是这个问题。

它的思路很像一场接力。当前这个位置，不只看当前输入，还带着前面一路传下来的状态继续往后走。你可以把它理解成，一边读，一边带着一份不断更新的前文摘要。

这比 N-gram 进了一大步。

因为上下文终于不再是固定死的了。

但它新的问题也很快出现了。

链路一长，前面的信号就越来越弱。理论上信息还在，实际上已经很难稳定传到后面。所以很多人会说，RNN 记不住长距离信息。

我现在更愿意把这句话换一种说法。

它不是记不住。

是传不过去。

LSTM 后来加的那套门控，其实就是在认真处理这件事。什么该留，什么该忘，什么信号应该被重点保住。

到这一步，“记忆”这个词终于不再玄了。它变成了一件我能理解的事，就是信息有没有在链路里掉线。

这也是我这次重学时很受用的一点。

很多模型名词一旦翻回工程视角，就没那么吓人了。

三、Transformer 真正改掉的，不是规模，而是看上下文的方式

到 Transformer 这里，我才真的有种整条线被打通的感觉。

因为它不是把 RNN 那条路继续做大，而是直接换了一种看上下文的方法。

我现在最常用的一句解释是这句：

RNN 像一站一站传话。Transformer 更像当前位置直接看全局。

这句话对我很有用，因为它一下就把两种思路分开了。

RNN 的逻辑是，前面的信息慢慢传到后面。Transformer 的逻辑是，我现在这个词，真正该参考谁，我就直接去看谁。主语重要，我就看主语。限定条件重要，我就看限定条件。哪怕那个信息隔得很远，只要它重要，我也可以直接连过去。

这就是注意力机制最值得理解的地方。

它不是一个听起来高级的词，它本质上是在重写信息路由。

所以我现在回头看，Transformer 赢下来，不只是因为参数更大、显卡更强、数据更多。

那些当然都重要。

但更底层的变化是，它把“信息怎么走”这件事改掉了。

以前是按顺序排队传。

现在是谁重要，就直接去看谁。

这带来了两个特别实在的结果。

一个是，长距离关系更容易抓住。

另一个是，可以并行算。

也就是从这里开始，大模型这条线不只是更聪明了，它也终于更适合被大规模训练了。你后面看到的 GPT、Claude、Gemini、Qwen，本质上都还是站在这条路上继续往前长。

如果把这件事只写成技术突破，其实会丢掉一半信息。

它更像是，模型第一次真正拥有了一种全局看上下文的能力。后面那些让人觉得它像理解的体验，很大一部分都是从这里开始的。

四、走到 GPT 这条线，我才明白为什么今天的大模型都像“续写器”

学到这里，我又修正了自己一个很深的误解。

我以前默认，大模型天生就是回答问题的。后来才发现，这也是结果，不是起点。

原始 Transformer 是编码器加解码器，这套结构很适合翻译。可如果目标是做一个通用生成模型，事情反而可以更简单。

只做一件事就够了。

预测下一个 token。

GPT 走的就是这条路。你给它一个开头，它往下接。你把它刚写出来的内容再喂回去，它继续往下接。问答、总结、写作、写代码，表面上看差别很大，放到底层，其实都是同一个动作。

继续生成。

我现在越来越愿意把大模型理解成一种被训练得极强的续写系统，也是因为这个。

这样理解不但不矮化它，反而更接近它真实的底层逻辑。

1. 预训练，教会它像人一样把话接下去

我自己真正把这一步想清楚，是在后来跑小模型的时候。

以前只看概念，总觉得预训练、SFT、对齐这些词每个都懂一点，但没彻底打通。后来真的上手一些小模型之后，感觉一下就具体了。

预训练之后，你能明显感觉到模型“会说了”。

句子变顺了。

语气像样了。