AI大模型是做“阅读理解”的？“笨”方法成为解题关键！

2025-04-06 09:01:27 阅览：447

你们有没有想过，像那些聊天机器人或者无所不能的AI大语言模型，它们是怎么看懂我们写的字，听懂我们说的话呢？它们又不认识汉字，也不会说中文，这到底是怎么做到的呢？

给每个词一个“秘密代号”

想象一下，我们要教电脑认识小动物。我们不能直接给它看图片，得用一种它能懂的语言——数字！

我们可以给每个小动物打分，比如：

▷ 毛茸茸指数（1分代表不太毛茸茸，10分代表超级毛茸茸）

▷ 汪汪叫指数（1分代表不(bù)叫(jiào)，10分代表很会汪(wāng)汪(wāng)叫(jiào)）

▷ 抓(zhuā)老(lǎo)鼠(shǔ)指(zhǐ)数(shù)（1分(fēn)代(dài)表(biǎo)不(bù)抓(zhuā)，10分(fēn)代(dài)表(biǎo)抓(zhuā)老(lǎo)鼠(shǔ)高(gāo)手(shǒu)）

那(nà)么(me)，“小(xiǎo)狗(gǒu)”可(kě)能(néng)会(huì)得(de)到(dào)这(zhè)样(yàng)的(de)分(fēn)数(shù)：毛(máo)茸(rōng)茸(rōng)指(zhǐ)数(shù) 7分(fēn)，汪(wāng)汪(wāng)叫(jiào)指(zhǐ)数(shù) 9分(fēn)，抓(zhuā)老(lǎo)鼠(shǔ)指(zhǐ)数(shù) 2分(fēn)。我(wǒ)们(men)可(kě)以(yǐ)把(bǎ)这叫做小狗的“秘密代号”：(7, 9, 2)。

“小猫”呢？可能就是：毛茸茸指数 8分，汪汪叫指数 1分，抓老鼠指数 9分。小猫的秘密代号就是：(8, 1, 9)。

你看，“小狗”和“小猫”的秘密代号就不一样。而且，通过比较这些数字，电脑就能“感觉”到它们的不同：哦，一个喜欢汪汪叫，一个擅长抓老鼠！

超(chāo)级(jí)多(duō)的(de)“秘(mì)密(mì)代(dài)号(hào)”！

刚(gāng)才(cái)我(wǒ)们(men)只(zhǐ)用(yòng)了3个数字(zì)来(lái)代(dài)表(biǎo)小(xiǎo)动(dòng)物(wù)。但(dàn)对(duì)于(yú)我(wǒ)们(men)人(rén)类(lèi)语(yǔ)言(yán)里(lǐ)的(de)每(měi)一(yī)个(gè)词，比如“开心”、“学习”、“天(tiān)空(kōng)”、“香(xiāng)蕉(jiāo)”…… 大(dà)模(mó)型(xíng)会(huì)用(yòng)超(chāo)级(jí)超(chāo)级(jí)多(duō)的(de)数(shù)字(zì)来(lái)给(gěi)它(tā)们(men)“秘(mì)密(mì)代(dài)号(hào)”！不(bù)是(shì)3个(gè)，也(yě)不(bù)是(shì)10个(gè)，可能是几千个，甚至上万个数字！

在GPT-1 里，每个词用了 768 个数字来表示。在 GPT-3 里，每个词用的是 12288 个数。在 DeepSeekV3 模型里，用的是 7168 个数来表示每个词。

这么多数字，就像给每个词画了一张超级详细的“画像”。电脑虽然(rán)看(kàn)不(bù)懂(dǒng)“开(kāi)心(xīn)”这(zhè)两(liǎng)个(gè)字(zì)，但(dàn)它(tā)能(néng)记(jì)住(zhù)“开(kāi)心(xīn)”对(duì)应(yīng)的(de)几(jǐ)千(qiān)个(gè)数(shù)字(zì)代(dài)号(hào)。

“词嵌(qiàn)入(rù)”：把(bǎ)词语(yǔ)放(fàng)进(jìn)“数(shù)字(zì)空(kōng)间”

科学家们给这种用一大堆数字代表一个词的方法，起了一个酷酷的名字，叫做“词嵌入”，英文叫 Embedding。

“嵌入”是啥意思呢？想象一下我们刚才给小动物打分，如果只用两个分数（比如“毛茸茸指数”和“汪汪叫指数”），我们是不是可以在一张纸上（一个二维平面）画一个点来代表“小狗”，再画一个点代表“小猫”？

▷ 小狗：（毛茸茸7分，汪汪叫9分） -> 在纸上的某个点

▷ 小猫：（毛茸茸8分，汪汪叫1分） -> 在纸上的另一个点

这就好像把“小狗”和“小猫”这两个词，“嵌”入到了这张纸里。

如果用三个分数呢？就像长、宽、高，我们就可以在一个立体空间（比如一个大箱子）里找到一个点来代表它。

而大模型用几千、上万个数字代表一个词，就等于把这个词“嵌”入到了一个超级复杂、我们想象不出来的“高维空间”里！虽然我们画不出来，但在数学上，它是存在的。

数字怎么来的？电脑自(zì)己“学”！

那这些代表词语的数字（秘密代号）是怎么定下来的呢？是人一个个设置的吗？当然不是，那太累啦！

大模型在“学习”（训练）的时候，会阅读超级多的文字，比如图书馆里所有的书、网上所有的文章。它会观察哪些词经常一起出现，哪些词意思比较像。

一开始，所有词的数字代号都是乱七八糟的。但通过不断阅读和学习，大模型会慢慢调整这些数字，就像整理房间一样，把意思相近的词，它们的“秘密代号”变得(de)也(yě)更(gèng)接(jiē)近(jìn)。比(bǐ)如(rú)，“高(gāo)兴(xìng)”和(hé)“快(kuài)乐(lè)”的(de)秘(mì)密(mì)代(dài)号(hào)会(huì)很(hěn)像(xiàng)，它(tā)们(men)在(zài)那(nà)个(gè)“数(shù)字(zì)空(kōng)间(jiān)”里(lǐ)的(de)位(wèi)置(zhì)也(yě)会(huì)靠(kào)得(de)很(hěn)近(jìn)。而(ér)“高(gāo)兴(xìng)”和(hé)“桌(zhuō)子(zi)”的(de)秘(mì)密(mì)代(dài)号(hào)就(jiù)会(huì)差(chà)很(hěn)远(yuǎn)。

一(yī)词多(duō)义(yì)怎(zěn)么(me)办(bàn)？看(kàn)“邻(lín)居”！

我们知道，有的(de)词有(yǒu)好(hǎo)几(jǐ)个(gè)意(yì)思(sī)，比(bǐ)如(rú)“球(qiú)”，可(kě)以(yǐ)指(zhǐ)篮(lán)球(qiú)、足(zú)球(qiú)，也(yě)可(kě)以(yǐ)指(zhǐ)地(de)球(qiú)。电(diàn)脑(nǎo)怎(zěn)么(me)知(zhī)道(dào)我(wǒ)们(men)说(shuō)的(de)是(shì)哪(nǎ)个(gè)“球(qiú)”呢(ne)？

别(bié)担(dān)心(xīn)！当(dāng)一(yī)个(gè)词和(hé)其(qí)他(tā)词一(yī)起(qǐ)出(chū)现(xiàn)时(shí)，这(zhè)些(xiē)“邻(lín)居(jū)”词会(huì)给(gěi)它(tā)线(xiàn)索(suǒ)。

▷ 如(rú)果(guǒ)你(nǐ)说(shuō)“踢(tī)球(qiú)”，旁(páng)边(biān)的(de)“踢(tī)”这个词的秘密代号，就会和“球”的秘密代号发生一种奇妙的“化学反应”（其实是数学计算），让“球”的代号更偏向“足球”或“篮球”的意思。

▷ 如果你说“地球”，旁边的“地”字就会让“球”的代号指向我们居住的这个星球。

所以，词语的秘密代号不是一成不变的，它会根据上下文，也就是旁边的“邻居”词，进行微小的调整，变得更准确！

总结一下

所以，大模型理解文字的秘密武器就是：

（1）给每个词一大串数字作为“秘密代号”（词嵌入）。

（2）这些数字能表示词语的意思和它们之间的关系。

（3）意思相近的词，它们的“秘密代号”也相近。

（4）电脑通(tōng)过(guò)阅(yuè)读(dú)海(hǎi)量(liàng)文字(zì)，自(zì)己(jǐ)学(xué)会(huì)怎(zěn)么(me)给(gěi)词语(yǔ)定(dìng)这(zhè)些(xiē)代(dài)号(hào)。

（5）通(tōng)过(guò)词语(yǔ)旁(páng)边(biān)的(de)“邻(lín)居(jū)”词，电(diàn)脑(nǎo)能(néng)判(pàn)断(duàn)一(yī)个(gè)词在(zài)当(dāng)前(qián)语(yǔ)境(jìng)下(xià)的(de)准(zhǔn)确(què)意(yì)思(sī)。

是(shì)不(bù)是(shì)很(hěn)有(yǒu)趣(qù)？电(diàn)脑(nǎo)用(yòng)这(zhè)种我们看起来有点“笨”的数学方法，竟然就能处理我们复杂又美妙的语言啦！这背后其实是很多聪明的数学和计算在帮忙哦！

供稿单位：重庆市无线电科普体验中心
审核专家：张启义
声明：除原创内容及特别说明之外，部分图片来源网络，非商业用途，仅作为科普传播素材，版权归原作者所有，若有侵权，请联系删除。