震撼！AI分词器成统计学小能手，大脑“偷懒”原理竟相同！-科技

震撼！AI分词器成统计学小能手，大脑“偷懒”原理竟相同！ 2025-05-02 00:04:26 科技

【导语】AI大模型的神奇之处，在于它如何理解和处理我们的语言。这一切的奥秘，都藏在“Token”这个小小概念里。想象一下，AI就像一个巧妙的“切菜工”，将我们输入的文字切割成一块块小积木——Token。这些Token不仅是AI理解我们意图的关键，也是它生成回复的基础。今天，就让我们一起揭开Token的神秘面纱，看看它是如何在AI世界中发挥作用的。供稿单位：重庆市无线电科普体验中心，审核专家：杨文艳。

AI 大模型的token究竟是什么？

神奇的“切菜工”：分词器

AI大模型有一个特别厉害的小助手，就像餐厅里刀工一流的“切菜工”，它的名字叫做分词器。

当我们给 AI大模型一段文字，比如：“我爱吃甜甜的冰淇淋。” 这个“切菜工”就会嗖嗖嗖几下，把这句话切成很多小块：“我”、“爱”、“吃”、“甜甜”、“的”、“冰”、“淇”、“淋”、“。”

你看，每个小块就是一个 Token！有的是一个字，有的是两个字组成的词语，连标点符号“。”也是一个 Token！

Token 的千变万化：大小不一的积木

这些Token可不是一样大小的哦！就像积木有各种形状和尺寸。

单个字可(kě)能(néng)是(shì)小(xiǎo)Token：像(xiàng)“我(wǒ)”、“爱(ài)”、“吃”这样单独的汉字，很多时候就是一个小小的Token。

常见的词语可能是中Token：像“甜甜”、“冰淇淋”这样我们经常一起说的词语，可能被“打包”成一个稍微大一点的Token。

更长的短语也可能是大Token：有些经常一起出现、有固定意思的短语，也可能被切成一个更大的Token。

标点符号、英文单词、字母组合也都是Token：就像我们刚才看到的“。”，英文里的“apple”、“ing”等等，也都是一个个独立的Token。

AI 是怎么“吐”字的？像挤牙膏一样！

更有趣的是，当 AI 大模型要回答我们问题，或者自己写文章的时候，它也是一个 Token 一个 Token 地往外“蹦”字！就像我们挤牙膏一样，一点一点地出来。所以，有时候我们看到 AI 回答问题的时候，会感觉它像在慢慢打字，这就是因为它在努力地生成一个个 Token 呢！

我们的大脑也爱“偷懒”：Token 的(de)秘(mì)密(mì)武(wǔ)器(qì)

你(nǐ)快(kuài)速(sù)读(dú)一(yī)些(xiē)不(bù)常(cháng)见(jiàn)的(de)字(zì)，比(bǐ)如(rú)“醍(tí)”、“捭(bǎi)”，是(shì)不(bù)是(shì)会(huì)有(yǒu)点(diǎn)卡(kǎ)壳(ké)？要(yào)稍(shāo)微(wēi)想(xiǎng)一(yī)下(xià)才(cái)能(néng)读(dú)出(chū)来(lái)？

但(dàn)是(shì)，如(rú)果(guǒ)这(zhè)些(xiē)字(zì)组(zǔ)成(chéng)了(le)一(yī)个(gè)我(wǒ)们(men)熟(shú)悉(xī)的(de)词语(yǔ)，比(bǐ)如(rú)“醍(tí)醐(hú)灌(guàn)顶(dǐng)”、“纵(zòng)横(héng)捭(bǎi)阖(hé)”，你(nǐ)是(shì)不(bù)是(shì)一(yī)下(xià)子(zi)就(jiù)能(néng)认(rèn)出(chū)来(lái)，不(bù)用(yòng)一(yī)个(gè)字(zì)一(yī)个(gè)字(zì)地(de)拼(pīn)了？

这是因为我们的大脑也喜欢把有意义的词语看作一个整体来处理，这样能节省我们的小脑袋瓜的能量！AI分词器也是这个道理，它会尽量把经常一起出现、有完整意思的文字“打包”成一个Token，这样AI大模型处理起来就更轻松、更快速啦！

“切菜工”的秘诀：统计学小能手！

那么，这个厉害的“切菜工”——分词器，是怎么知道哪些字应该切在一起，哪些字应该分开呢？

它就像一个超级勤奋的小侦探，读了超级超级多的书、文章和各种各样的文字。它会偷偷记住哪些字经常手拉手一起出现。比如，“苹果”这两个字总是形影不离，分词器就会聪明地把它们打包成一个Token。像“鸡”、“ing”、逗号“，”这些家伙总是喜欢自己待着，分词器也会把它们单独分成Token。

久而久之，分词器就建立了一个巨大的“Token表”，里面记录着成千上万个它认识的 Token！

Token 的本质：AI 世界的小小“信息块”

所以，Token就是 AI 大模型世界里一块块小小的“信息积木”。大模型不会直接“看懂”我们输入的文字，而是先把它们变成Token，然后通过分析这些Token之间的关系，来理解我们的意思，并生成新的文字。

Token 越多，计算量越大：AI 也要“花力气”

AI 大模型处理文字的时候，是按照Token的数量来计算工作量的。就像我们拼积木，积木块越多，我们需要花的时间和力气就越多。所以，大模型公司在计算费用的时候，也会按照 Token 的数量来算，因为处理的Token越多，电脑就(jiù)需(xū)要(yào)进(jìn)行(xíng)更(gèng)多(duō)的(de)计(jì)算(suàn)。

DeepSeek的(de)生(shēng)成(chéng)速(sù)度(dù)可(kě)达每秒60个token，ChatGPT的生成速度约为每秒20个token。ChatGPT的上下文窗口长度在部分版本支持128k tokens，适合处理长篇幅文本。

是不是觉得Token这个概念很有趣呢？下次你和AI聊天的时候，不妨想想它正在默默地把你的话切成一块块小积木，然后用这些小积木来理解你哦！

供稿单位：重庆市无线电科普体验中心

审核专家：杨文艳

声明：除原创内容及特别说明之外，部分图片来源网络，非商业用途，仅作为科普传播素材，版权归原作者所有，若有侵权，请联系删除。

官方网站-首页

震撼！AI分词器成统计学小能手，大脑“偷懒”原理竟相同！

产品&技术

解决方案&服务

投资者关系

新闻中心

关于我们