2025-10-17 18:02:28 科技
【导语】中国人民大学副教授塔娜解析大模型奥秘:从预训练、微调技术到GPT系列发展脉络,揭示DeepSeek等国产模型特色优势,同时直面算法偏见、AI幻觉等现实挑战,提出数据多样性提升、伦理审查(chá)等(děng)解(jiě)决(jué)方案,助您科学认知与批判性使用人工智能。

大家好,我是中国人民大学新闻学院的副教授塔娜。我主要研究的方向是传播学与计算科学的交叉学科方向。
大模型为什么可以回答各种问题?
大模型之所以能回答各种问题,核心在于预训练和微调这两个技术步骤。
预训练是通过让模型“阅读”充分多的,各种各样领域文本的语料知识,它能够推理得出文本之间最可能的关联关系。通过大量的训练,它可以帮助我们做很多文本生成任务。从而能够(gòu)进行文本分类、摘要、翻译、生成等多种任务。“大”在这里指的是模型的规模和复杂性。
具体到模型本身,它是含有数以亿计的参数,大模型的参数越多,这个模型就越强。大模型还可以进行后续的微调。微调就是引入我们人工的辅助,由大模型进行进一步的学习。随后它就可能生成更符合(hé)我(wǒ)们(men)人(rén)类(lèi)要(yào)求(qiú)的(de)文本(běn)。
什(shén)么(me)是(shì)GPT
GPT:它(tā)是(shì)通(tōng)用(yòng)预(yù)训(xun)练(liàn)转(zhuǎn)换(huàn)器(qì)的(de)简(jiǎn)称(chēng),它(tā)其(qí)实(shí)就(jiù)是(shì)OpenAI这(zhè)个(gè)公(gōng)司(sī),基(jī)于(yú)通(tōng)用(yòng)预(yù)训(xun)练(liàn)的(de)基(jī)础(chǔ)的(de)技术来生成的。用于我们自然(rán)语言处理的一个大的模型。主要的一个特点
生成式(Generative):通过学习大量文本数据的统计规律,生成连贯、自然的文本
预训练(Pre-trained):在大规模无标注文本上训练,掌握通用语言模式,再通过微调适应特定任务
变换器(Transformer):基于Transformer架构,利用自注意力机制(Self-Attention)高效处理长文本依赖关系,支持并行计算
GPT的发展:
GPT-1(2018年):首个基于Transformer的无监(jiān)督预训练模型,参数1.17亿
GPT-2(2019年):参数量增至15亿,支持多任务学习
GPT-3(2020年):1750亿参数,具备零样本/小样本学习能力
GPT-4(2023年):支持多模态(文本+图像),性能进一步提升
GPT-4o(2024年):多模态扩展至文本、音频、图像组合输入与输出
关于DeepSeek:
DeepSeek 是一款(kuǎn)由(yóu)中(zhōng)国(guó)团(tuán)队(duì)研(yán)发(fā)的(de)大(dà)型(xíng)语(yǔ)言(yán)模(mó)型(xíng),以(yǐ)其(qí)高(gāo)性(xìng)能(néng)、低(dī)成(chéng)本(běn)和(hé)对(duì)中(zhōng)文的(de)优(yōu)化(huà)处(chù)理(lǐ)而(ér)著(zhe)称(chēng)

核(hé)心(xīn)特点:
高性能(néng)与低成本:DeepSeek 采用 专家混合架构(MoE),总参数达 6710 亿,但每个 token 仅激活 370 亿参数,显著降低计算成本,实现“小力出奇迹”的效果
中文优化:通过 双通道注意力机制和大量中文语料训练,在中文语境下表现优于多数国际开源模型,成语匹配准确率达 89%
开源生态:采用(yòng) MIT 协(xié)议(yì)开(kāi)源(yuán),支(zhī)持(chí)本(běn)地(de)部(bù)署(shǔ)和(hé)定(dìng)制(zhì)化(huà)开(kāi)发(fā),适(shì)合(hé)企(qǐ)业(yè)级(jí)应(yīng)用(yòng)。
维(wéi)度(dù)
DeepSeek
ChatGPT
架(jià)构(gòu)
MoE混(hùn)合(hé)专(zhuān)家,动态激活模块
传统Transformer,全参数参与运算
成本
本地部署成本低
训练成本低
高昂(API调用是D的5-10倍)
中文能力
专优,支持成语和复杂语义
通用性强,
多语言覆盖
实时性
知识截止 2024 年
部分版本支持联网更新
多模态
仅文本(截至 2025 年)
支持图文混合输(shū)入(rù)
开(kāi)放(fàng)性(xìng)
全系(xì)列(liè)模(mó)型(xíng)开(kāi)源(yuán),支(zhī)持(chí)二(èr)次(cì)开(kāi)发(fā)
不(bù)开(kāi)源(yuán),提(tí)供(gōng)API
算(suàn)法(fǎ)偏(piān)见(jiàn)是(shì)什(shén)么(me)?
算(suàn)法(fǎ)偏(piān)见(jiàn)指(zhǐ)AI因(yīn)数(shù)据(jù)或(huò)设(shè)计(jì)问(wèn)题(tí),产(chǎn)生(shēng)不(bù)公(gōng)平(píng)、歧(qí)视(shì)性(xìng)的(de)结(jié)果。例如:
比如我们的训练数据里边,男生求职更倾向于某几类专业,女生的求职更倾向于某几类专业。这样就无形之中形成了对性别的职业的歧视。还有一些是社会文化的影响,开发者他可能无意识的会将一些自身的偏见带进去。比如说我们对于这种人脸识别系统,白人的编程员,他可能更多的去选择了白人的人脸进行训练。对于黑人深色肤色人种的人脸的识别,那可能准确率会更低。
那算法偏见它导致的一个后果,在无形之中会加剧社会不平等,数据导致的偏差会导致结果性的偏差,会降低公众对算(suàn)法(fǎ)的(de)信(xìn)任。解决的办法。首先就是提高数据的多样性。第二个提高算法的透明度。还有一点,对算法进行充分的伦理审查,改进或者是减少算法偏见对于现实社会的一个影响。
为什么大模型会“一本正经地胡说八道”?
这种现象称为AI幻觉(Hallucination),这个幻觉可以分成几种,事实性幻觉:与真实世界不符。还有一种我们叫忠实性幻觉,就是模型并不服从用户的指令产生。
产生幻觉的原因:
1.数据缺陷:训练数据包含错误或过时知识(如过时的科学结论)。
2.训练漏洞:模型过度依赖统计规律(如“多伦多”常与“加拿大”共现,误认为它是首都)。
3.推理局限:复杂问题超出模型能力,强行编造答案。

风险:如何批判性使用大模型?
第一个是我们需要有独立的思考能力,不能单向的模型输出什么,我们就接受什么,我们需要自主再行的进行验证。第二个,我们要理解模型,它其实本身它并没有形成真正的对这个世界的认知。它只是尽可能的通过最大化的概率来生成一个最可能的答案。还有一个需要来注意恶意的一些数据的隐私的一些侵犯。这个幻觉问题目前并没有100%的解决,但是会有一些方向。比如说我们可以通过检索增强生成(RAG)、人工审核等减少幻觉。RAG我们简单的理解就是,我手头有一个大模型,同时我还能让它,现场新学知识,收到我们的提问之后,它可以一边基于它的知识库组织答案。一边还可以在互联网上或者是其它的知识库里面进行检索,来得出一个更新知识后的答案。
本文为·创作培育计划扶持作品
作者:人民日报
审核:贾宁 大连东软信息学院 教授
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
来源: 创作培育计划

电话:010-26538895
传真:021-82563319
商务合作:ccm@wzguangming.com
廉洁邮箱:AI_AC@wzguangming.com
电话:010-26538895
传真:021-82563319
商务合作:ccm@wzguangming.com
廉洁邮箱:AI_AC@wzguangming.com
© 2025 科技(中国)有限公司 版权所有 不得转载
【浙ICP备2020042360号】
网站地图