AI大模型咋做“阅读理解”？“笨”方法成为解题关键！-科技

AI大模型咋做“阅读理解”？“笨”方法成为解题关键！ 2025-04-06 09:30:45 科技

你们有没有想过，像那些聊天机器人或者无所不能的AI大语言模型，它们是怎么看懂我们写的字，听懂我们说的话呢？它们又不认识汉字，也不会说中文，这到底是怎么做到的呢？

给每个词一个“秘密代号”

想象一下，我们要教电脑认识小动物。我们不能直(zhí)接(jiē)给(gěi)它(tā)看(kàn)图(tú)片(piàn)，得(de)用(yòng)一(yī)种(zhǒng)它(tā)能(néng)懂(dǒng)的(de)语(yǔ)言(yán)——数(shù)字(zì)！

我(wǒ)们(men)可(kě)以(yǐ)给(gěi)每(měi)个(gè)小(xiǎo)动(dòng)物(wù)打(dǎ)分(fēn)，比(bǐ)如(rú)：

▷ 毛(máo)茸(rōng)茸(rōng)指(zhǐ)数(shù)（1分(fēn)代(dài)表(biǎo)不(bù)太(tài)毛(máo)茸(rōng)茸(rōng)，10分(fēn)代(dài)表(biǎo)超(chāo)级(jí)毛(máo)茸(rōng)茸(rōng)）

▷ 汪(wāng)汪(wāng)叫(jiào)指(zhǐ)数(shù)（1分(fēn)代(dài)表不叫，10分代表很会汪汪叫）

▷ 抓老鼠指数（1分代表不抓，10分代表抓老鼠高手）

那么，“小狗”可能会得到这样的分数：毛茸茸指数(shù) 7分(fēn)，汪(wāng)汪(wāng)叫(jiào)指(zhǐ)数(shù) 9分(fēn)，抓(zhuā)老(lǎo)鼠(shǔ)指(zhǐ)数(shù) 2分(fēn)。我(wǒ)们(men)可(kě)以(yǐ)把(bǎ)这(zhè)叫(jiào)做(zuò)小(xiǎo)狗(gǒu)的(de)“秘(mì)密(mì)代(dài)号(hào)”：(7, 9, 2)。

“小(xiǎo)猫(māo)”呢(ne)？可(kě)能(néng)就(jiù)是(shì)：毛(máo)茸(rōng)茸(rōng)指(zhǐ)数(shù) 8分(fēn)，汪汪叫指数 1分，抓老鼠指数 9分。小猫的秘密代号就是：(8, 1, 9)。

你看，“小狗”和“小猫”的秘密代号就不一样。而且，通过比较这些数字，电脑就能“感觉”到它们的不同：哦，一个喜欢汪汪叫，一个擅长抓老鼠！

超级多的“秘密代号”！

刚才我们只用了3个数字来代表小动物。但对于我们人类语言里的每一个词，比如“开心”、“学习”、“天空”、“香蕉”…… 大模型会用超级超级多的数字来给它们“秘密代号”！不是3个，也不是10个，可能是几千个，甚至上万个数字！

在GPT-1 里，每个词用了 768 个数字来表示。在(zài) GPT-3 里(lǐ)，每(měi)个(gè)词用(yòng)的(de)是(shì) 12288 个(gè)数(shù)。在(zài) DeepSeekV3 模(mó)型(xíng)里(lǐ)，用(yòng)的(de)是(shì) 7168 个(gè)数(shù)来(lái)表(biǎo)示(shì)每(měi)个(gè)词。

这(zhè)么(me)多(duō)数(shù)字(zì)，就(jiù)像(xiàng)给(gěi)每(měi)个(gè)词画(huà)了(le)一(yī)张(zhāng)超(chāo)级(jí)详(xiáng)细(xì)的(de)“画(huà)像(xiàng)”。电(diàn)脑(nǎo)虽(suī)然(rán)看(kàn)不(bù)懂(dǒng)“开(kāi)心(xīn)”这(zhè)两个字，但它能记住“开心”对应的几千个数字代号。

“词嵌入”：把词语放进“数字空间”

科学家们给这种用一大堆数字代表一个词的方法，起了一个酷酷的名字，叫(jiào)做(zuò)“词嵌入”，英文叫 Embedding。

“嵌入”是啥意思呢？想象一下我们刚才给小动物打分，如果只用两个分数（比如“毛茸茸指数”和“汪汪叫指数”），我们是不是可以在一张纸上（一个二维平面）画一个点(diǎn)来(lái)代(dài)表(biǎo)“小(xiǎo)狗(gǒu)”，再(zài)画(huà)一(yī)个(gè)点(diǎn)代(dài)表(biǎo)“小(xiǎo)猫(māo)”？

▷ 小(xiǎo)狗(gǒu)：（毛(máo)茸(rōng)茸(rōng)7分(fēn)，汪(wāng)汪(wāng)叫(jiào)9分(fēn)） -> 在(zài)纸(zhǐ)上(shàng)的(de)某(mǒu)个(gè)点(diǎn)

▷ 小(xiǎo)猫(māo)：（毛(máo)茸(rōng)茸(rōng)8分(fēn)，汪(wāng)汪(wāng)叫(jiào)1分(fēn)） -> 在(zài)纸(zhǐ)上(shàng)的(de)另(lìng)一(yī)个(gè)点(diǎn)

这(zhè)就(jiù)好(hǎo)像(xiàng)把(bǎ)“小(xiǎo)狗(gǒu)”和(hé)“小(xiǎo)猫(māo)”这(zhè)两(liǎng)个(gè)词，“嵌(qiàn)”入(rù)到(dào)了(le)这(zhè)张(zhāng)纸(zhǐ)里(lǐ)。

如(rú)果(guǒ)用(yòng)三(sān)个(gè)分(fēn)数(shù)呢(ne)？就(jiù)像(xiàng)长(zhǎng)、宽(kuān)、高(gāo)，我(wǒ)们(men)就(jiù)可(kě)以(yǐ)在(zài)一(yī)个(gè)立(lì)体(tǐ)空(kōng)间(jiān)（比(bǐ)如(rú)一(yī)个(gè)大(dà)箱(xiāng)子(zi)）里(lǐ)找(zhǎo)到(dào)一(yī)个(gè)点(diǎn)来代表它。

而大模型用几千、上万个数字代表一个词，就等于把这个词“嵌”入到了一个超级复杂、我们想象不出来的“高维空间”里！虽然我们画不出来，但在数学上，它是存在的。

数字怎么来的？电脑自己“学”！

那这些代表词语的数字（秘密代号）是(shì)怎(zěn)么(me)定(dìng)下(xià)来(lái)的呢？是人一个个设置的吗？当然不是，那(nà)太(tài)累(lèi)啦(la)！

大模型在“学习”（训练）的时候，会阅读超级多的文字，比如图书馆里所有的书、网上所有的文章。它会观察哪些词经常一起出现，哪些词意思比较像。

一开始，所有词的数字代号都是乱七八糟的。但通过不断阅读和学习，大模(mó)型(xíng)会(huì)慢慢调整这些数字，就(jiù)像(xiàng)整(zhěng)理(lǐ)房(fáng)间(jiān)一(yī)样(yàng)，把(bǎ)意(yì)思(sī)相(xiāng)近(jìn)的(de)词，它(tā)们(men)的(de)“秘(mì)密(mì)代(dài)号”变得也更接近。比如，“高兴”和“快乐”的秘密代号会很像，它们在那个“数字空间”里的位置也会靠得很近。而“高兴”和“桌子”的秘密代号就会差很远。

一词多义怎么办？看“邻居”！

我们知道，有的词有好几个意思，比如“球”，可以指篮球、足球，也可以指地球。电脑怎么知道我们说的是哪个“球(qiú)”呢？

别担心！当一个词和其他词一起出现时，这些“邻居”词会给它线索。

▷ 如果你说“踢球”，旁边的“踢”这个词的秘密代号，就会和“球”的秘密代号发生一种奇妙的“化学反应”（其实是数学计算），让“球”的代号更偏向“足球”或“篮球”的意思。

▷ 如果你说“地球”，旁边的“地”字就会让“球”的代号指向我们居住的这个星球。

所以，词语的秘密代号不是一成不变的，它会根据上下文，也就是旁边的“邻居”词，进行微小的调整，变得更准确！

总结一下

所以，大模型理解文字的秘密武器就是：

（1）给每个词一大串数字作为“秘密代号”（词嵌入）。

（2）这些数字能表示词语的意思和它(tā)们(men)之(zhī)间(jiān)的(de)关系(xì)。

（3）意(yì)思(sī)相(xiāng)近(jìn)的(de)词，它(tā)们(men)的(de)“秘(mì)密(mì)代(dài)号(hào)”也(yě)相(xiāng)近(jìn)。

（4）电(diàn)脑(nǎo)通(tōng)过(guò)阅(yuè)读(dú)海(hǎi)量(liàng)文字(zì)，自(zì)己(jǐ)学(xué)会(huì)怎(zěn)么(me)给(gěi)词语(yǔ)定(dìng)这(zhè)些(xiē)代(dài)号(hào)。

（5）通(tōng)过(guò)词语(yǔ)旁(páng)边(biān)的(de)“邻(lín)居(jū)”词，电(diàn)脑(nǎo)能判断一个词在当前语境下的准确意思。

是不是很有趣？电脑用这种我们看起来有点“笨”的数学方法，竟然就能处理我们复杂又美妙的语言啦！这背后其实是很多聪明的数学和计算在帮(bāng)忙(máng)哦(ó)！

供稿单位：重庆市无线电科普体验中心
审核专家：张启义
声明：除原创内容及特别说明之外，部分图片来源网络，非商业用途，仅作为科普传播素材，版权归原作者所有，若有侵权，请联系删除。

官方网站-首页

AI大模型咋做“阅读理解”？“笨”方法成为解题关键！

产品&技术

解决方案&服务

投资者关系

新闻中心

关于我们