AI 阅读助手READ MODE
先引入上下文再提问,
或直接在这里输入问题。

我重学大模型最难的一章,终于看懂它为什么像懂你

大模型不是先理解你,它是先学会把话接下去

type
status
date
slug
summary
tags
category
icon
password
commet

我重学大模型最难的一章,终于看懂它为什么像懂你

notion image
前段时间我把大语言模型基础又重学了一遍。
不是因为突然想补一门课。
是因为我发现,自己已经天天在用模型、写 Prompt、看 Agent、搭工作流了,可一旦有人把 N-gram、RNN、Attention、Token、SFT 这些词一口气摆出来,我脑子里那条线还是会断。
这件事其实挺真实的。
你会用,不等于你真的想顺了。
尤其大模型这条线,最容易把人带偏的地方,不是它太难,而是它太像懂了。你很容易直接从 ChatGPT 这种成品往回看,于是默认它一开始就在理解世界、回答问题、扮演助手。
我以前就是这么想的。
后来我自己又顺着这条线重新走了一遍,才慢慢把一个顺序想对。
大模型不是先学会理解,再学会表达。
它更像是先把接话这件事做到极强,然后一点点长出语义表示、上下文处理、全局注意力,再被对齐成一个像助手的系统。
如果这篇最后只留一句话,我想留这句:
大模型表面上像在理解你,底层其实是从预测下一个 token 一路长出来的。
这篇我也不想写成教材。
我更想把我这次真正学顺的那条线,用人话重新讲一遍。讲给刚入门时总会被术语推着走的人,也讲给之前那个每个词都认识、连起来还是懵的自己。

一、我最先想反的,不是 Transformer,而是大模型的起点

我一开始最容易被大模型震到的地方,是它太像一个什么都懂的系统了。
你问它问题,它会答。
你让它写代码,它会写。
你让它总结一段话,它也能很快整理得像模像样。
可如果把镜头往前推,你会发现大模型最早解决的,其实不是理解世界,而是另一件朴素得多的事。
一句话写到这里,下一个词最可能是什么。
N-gram 干的就是这件事。
比如你写到“今天的天气很”,它会根据训练里见过的统计规律,去猜后面更可能接“热”“冷”还是“好”。
听起来很简单,甚至有点土。
但这一步特别关键。
因为你一旦接受大模型的起点是接话,后面很多能力就没那么神秘了。它不是上来就懂意思,而是先在大规模语言里,把怎样往下接更像人类会说的话学得越来越强。
notion image
但 N-gram 很快就会撞墙。
它最大的问题,不只是数据稀疏,也不只是上下文窗口太短。我现在更愿意把它的问题说得直接一点,它完全不会迁移。
它只认自己见过的组合。
你一换说法,它就容易断。
它不知道 agentrobot 很接近。
它也不知道“写代码”和“编程”很多时候说的是一回事。
所以后面词向量才那么重要。
因为从那一步开始,词不再只是一个个孤零零的符号。它们被放进了连续空间里,彼此之间开始有距离、有方向、有关系。模型终于不只是背句子了,它开始把语言压成一张关系网。
说到这里,我这次真正建立起来的第一个直觉其实就是:
大模型后面的很多“像理解”,都不是凭空冒出来的,而是从“更会表示语言关系”一步步长出来的。

二、模型里的“记忆”,不是记住,而是前面的信息别掉线

学到 RNN 的时候,我以前也很容易被一个词骗到,就是“记忆”。
一看到这个词,人会本能地把它往人的感觉上靠。好像模型也在脑子里存东西,后面再调出来用。
后来我才慢慢想明白,不是这么回事。
对模型来说,所谓记忆,更接近一件工程问题。
前面出现过的信息,到了后面还能不能继续影响当前计算。
N-gram 的问题是上下文太短。它最多只盯着前面有限几个词,可真实语言经常不是这样。很多意思,要往前看很长一段才会明白。
RNN 想解决的,就是这个问题。
它的思路很像一场接力。当前这个位置,不只看当前输入,还带着前面一路传下来的状态继续往后走。你可以把它理解成,一边读,一边带着一份不断更新的前文摘要。
这比 N-gram 进了一大步。
因为上下文终于不再是固定死的了。
但它新的问题也很快出现了。
链路一长,前面的信号就越来越弱。理论上信息还在,实际上已经很难稳定传到后面。所以很多人会说,RNN 记不住长距离信息。
我现在更愿意把这句话换一种说法。
它不是记不住。
是传不过去。
LSTM 后来加的那套门控,其实就是在认真处理这件事。什么该留,什么该忘,什么信号应该被重点保住。
到这一步,“记忆”这个词终于不再玄了。它变成了一件我能理解的事,就是信息有没有在链路里掉线。
这也是我这次重学时很受用的一点。
很多模型名词一旦翻回工程视角,就没那么吓人了。

三、Transformer 真正改掉的,不是规模,而是看上下文的方式

到 Transformer 这里,我才真的有种整条线被打通的感觉。
因为它不是把 RNN 那条路继续做大,而是直接换了一种看上下文的方法。
我现在最常用的一句解释是这句:
RNN 像一站一站传话。Transformer 更像当前位置直接看全局。
这句话对我很有用,因为它一下就把两种思路分开了。
RNN 的逻辑是,前面的信息慢慢传到后面。Transformer 的逻辑是,我现在这个词,真正该参考谁,我就直接去看谁。主语重要,我就看主语。限定条件重要,我就看限定条件。哪怕那个信息隔得很远,只要它重要,我也可以直接连过去。
这就是注意力机制最值得理解的地方。
它不是一个听起来高级的词,它本质上是在重写信息路由。
notion image
所以我现在回头看,Transformer 赢下来,不只是因为参数更大、显卡更强、数据更多。
那些当然都重要。
但更底层的变化是,它把“信息怎么走”这件事改掉了。
以前是按顺序排队传。
现在是谁重要,就直接去看谁。
这带来了两个特别实在的结果。
一个是,长距离关系更容易抓住。
另一个是,可以并行算。
也就是从这里开始,大模型这条线不只是更聪明了,它也终于更适合被大规模训练了。你后面看到的 GPT、Claude、Gemini、Qwen,本质上都还是站在这条路上继续往前长。
如果把这件事只写成技术突破,其实会丢掉一半信息。
它更像是,模型第一次真正拥有了一种全局看上下文的能力。后面那些让人觉得它像理解的体验,很大一部分都是从这里开始的。

四、走到 GPT 这条线,我才明白为什么今天的大模型都像“续写器”

学到这里,我又修正了自己一个很深的误解。
我以前默认,大模型天生就是回答问题的。后来才发现,这也是结果,不是起点。
原始 Transformer 是编码器加解码器,这套结构很适合翻译。可如果目标是做一个通用生成模型,事情反而可以更简单。
只做一件事就够了。
预测下一个 token。
GPT 走的就是这条路。你给它一个开头,它往下接。你把它刚写出来的内容再喂回去,它继续往下接。问答、总结、写作、写代码,表面上看差别很大,放到底层,其实都是同一个动作。
继续生成。
我现在越来越愿意把大模型理解成一种被训练得极强的续写系统,也是因为这个。
这样理解不但不矮化它,反而更接近它真实的底层逻辑。

1. 预训练,教会它像人一样把话接下去

我自己真正把这一步想清楚,是在后来跑小模型的时候。
以前只看概念,总觉得预训练、SFT、对齐这些词每个都懂一点,但没彻底打通。后来真的上手一些小模型之后,感觉一下就具体了。
预训练之后,你能明显感觉到模型“会说了”。
句子变顺了。
语气像样了。
Loading...
千逐千逐 / qianzhu / Lucien
Building AI-native products, systems, and community-driven networks.
qianzhuxue@gmail.com