雷涛:未来的AI,需要自主生产数据来训练自己

2025-04-08 11:30:57 科技

“我们建设的各种算力基础设施,构建的庞大算力,不能仅仅供给AI企业,更应扩展视野,服务于千行百业。”近日,由北京市科协、北京科技记协组织的“首都科技人”宣传活动中天云数据CEO、第九届吴文俊人工智能科学技术发明奖获得者雷涛如此阐述自己对人工智能所需算力的理解。

雷涛是中国第一代Java开发者之一,20世纪90年代参与制定了存储行业国际标准,2000年,他推动云计算落地,后又带领团队一直深耕数据智能赛道。

坚持“做原创”,开发国产(chǎn)自(zì)研(yán)数(shù)据(jù)库(kù)

作(zuò)为(wèi)IT行(xíng)业(yè)知(zhī)名数(shù)据(jù)专(zhuān)家(jiā)、首(shǒu)批(pī)中(zhōng)国(guó)计(jì)算(suàn)机(jī)学(xué)会(huì)(CCF)大数据专委会委员,雷涛对于数据的价值有着独到的认识。他认为,“数字经济时代,我们要给数据赋能,让数据服务大众。如何做到这一点?首先需要新一代的基础设施,而数智技术搭建的正是这样一种大平台。”

而他自己,就是一个数据基础设施(shī)的(de)搭(dā)建(jiàn)者(zhě)。2010 年(nián),当(dāng)分(fēn)布(bù)式(shì)数(shù)据(jù)和(hé)机(jī)器(qì)学(xué)习(xí)(AI)的(de)曙(shǔ)光(guāng)初(chū)现(xiàn)时(shí),雷(léi)涛(tāo)凭(píng)借(jiè)敏(mǐn)锐(ruì)的(de)洞(dòng)察(chá)力(lì),毅(yì)然(rán)投(tóu)身(shēn)到(dào)这(zhè)一(yī)领(lǐng)域,带(dài)领(lǐng)团(tuán)队(duì)研(yán)发(fā)国(guó)产(chǎn)自(zì)研(yán)数(shù)据(jù)库(kù)。

其实做一个(gè)数(shù)据(jù)库(kù)工(gōng)程(chéng)并(bìng)不(bù)难(nán),把(bǎ)应(yīng)用(yòng)场(chǎng)景(jǐng)打(dǎ)磨(mó)好(hǎo),一(yī)两(liǎng)年(nián)时(shí)间(jiān)就(jiù)可(kě)以(yǐ)实(shí)现(xiàn)快(kuài)速(sù)盈(yíng)利(lì),但(dàn)雷(léi)涛(tāo)果(guǒ)断(duàn)选(xuǎn)择(zé)了(le)“做(zuò)原(yuán)创(chuàng)”。

“做(zuò)原(yuán)创(chuàng)产(chǎn)品(pǐn),才(cái)是(shì)下(xià)一(yī)代(dài)产(chǎn)品(pǐn)的(de)核(hé)心(xīn)命(mìng)脉,工程只是在上一代产品上做延续性创新,无法支撑基础设施。”雷涛把几乎全部的资金都用在了研发上,可最初推向市场的时候,却经常被(bèi)客(kè)户(hù)质(zhì)疑(yí)。

但(dàn)这(zhè)所(suǒ)有(yǒu)的(de)难(nán),并(bìng)没(méi)有(yǒu)让(ràng)雷(léi)涛(tāo)打(dǎ)退(tuì)堂(táng)鼓(gǔ),他(tā)最(zuì)终(zhōng)开(kāi)发(fā)出(chū)一(yī)套(tào)基(jī)于(yú)Go语(yǔ)言(yán)纯(chún)自(zì)研(yán)的(de)HTAP数(shù)据(jù)库(kù)产(chǎn)品(pǐn)Hubble。这(zhè)套(tào)数(shù)据(jù)库(kù)通(tōng)过(guò)中(zhōng)国(guó)软(ruǎn)件(jiàn)测(cè)评(píng)中心的源代码测试,系统自主研发率达到99.62%,完全符合国家信创战略,解决了(le)基(jī)础(chǔ)设(shè)施(shī)“卡(kǎ)脖子”的难题。

有了自研的数据(jù)库(kù),就(jiù)有(yǒu)了(le)未(wèi)来(lái)面对国际巨头能够立足的底气与根本。雷涛说,现在机器传感物联网的数据时代已经到来,大量的数据通过设备或者产业服务产生出来,“而在我们搭建的基础设施之下,能诞生更多类似ChatGPT的智能应用。我们只要把数字基建搭好,把平台不断完善,数据就能真正服务每一个人。”

近年来,人工智能的快速发展深刻地改变着各个行业的格局。2019年,资本市场剧烈震荡,伞形信托引发的配资乱象让传统规则监管束手无策。雷涛带领的天云数据团队另辟蹊径,将600万正常账户数据与2000多个问题账户“喂”给深度学习模型,让人工智能自主发现人类难以察觉的异常模式。

“就像训练警犬识别新型毒品,我们不需要告诉它化学成分,只(zhǐ)需(xū)让它记(jì)住(zhù)气(qì)味。”雷涛说,这套系统将监管效率提升数个量级,成为“证监会版”监管沙盒项目之一。

他拿出手机展示团队研发的工业检测系统,AI通过3D点云数据,能像资深技工般“摸”出精密零件的微米级瑕疵。“语言大模型是二维革命,视觉大模型是2.5维突破,空间计算将开启三维智能时代。”他说。

在雷涛和团队的努力之下,现在的天云数据,能同时提供国产HTAP数据库Hubble与AI平台型基础设施,并被评为国家级高新技术企业,首批中关村前沿科技企业,以及Forrester人工智能认知层第一象限公司。

算力基础设施应服务于千行百业

人工智能有三大核心要素,即所谓算力、算法、数据,其中算力可(kě)以(yǐ)说(shuō)是(shì)其(qí)中(zhōng)的(de)基(jī)础(chǔ)。什(shén)么(me)是(shì)算(suàn)力(lì)?通(tōng)俗(sú)地(de)说(shuō),就(jiù)是(shì)计(jì)算(suàn)能(néng)力(lì),代(dài)表(biǎo)数(shù)据(jù)中(zhōng)心(xīn)的(de)服(fú)务(wu)器(qì)对(duì)数(shù)据(jù)进(jìn)行(xíng)处(chù)理(lǐ)后(hòu)实(shí)现(xiàn)结(jié)果(guǒ)输(shū)出(chū)的(de)一(yī)种(zhǒng)能(néng)力(lì)。

人(rén)们(men)常(cháng)说(shuō),人(rén)工(gōng)智(zhì)能(néng)的(de)尽(jǐn)头(tóu)是(shì)算力,而算力的尽头是电力。数据显示,2023年我国算力中心能耗总量为1500亿千瓦时,同比增长15.4%,约占全社会用电量的1.6%。可见算力增长也会大幅增加对电力的消耗。雷涛表示,现在已有越来越多的国内外AI巨头积极与能源电力企业合作,有的甚至直接生产电力,以满足算力快速增长对于电力的庞大需求。

在(zài)我(wǒ)国(guó),很(hěn)多(duō)地(de)方(fāng)正(zhèng)大力建设算力基础设施,投资不菲。雷涛认为,大家顺应AI时代潮流进行这些建设本来是件好事,但也要考虑实际情况,因地制宜,不要搞重复建设,更不能有投机的想法。“规划建设过程中要看清(qīng)AI的(de)发(fā)展(zhǎn)趋(qū)势(shì),紧(jǐn)跟(gēn)技(jì)术(shù)前(qián)沿(yán),不(bù)要(yào)再(zài)做(zuò)一(yī)些已经明显落伍的东西,所谓一步落后,步步落后!”他说。

雷涛还表示,建好的算力基础设施要如何发挥作用很关键,不(bù)能(néng)仅(jǐn)仅(jǐn)满(mǎn)足(zú)AI企(qǐ)业(yè)需(xū)要(yào),更(gèng)要(yào)关注(zhù)MaSS市(shì)场(chǎng)(大(dà)众(zhòng)市(shì)场(chǎng)),要(yào)让(ràng)算(suàn)力(lì)像(xiàng)互(hù)联(lián)网(wǎng)或(huò)者(zhě)水(shuǐ)、空(kōng)气(qì)一(yī)样(yàng),成(chéng)为(wèi)一(yī)种(zhǒng)基(jī)础(chǔ)的(de)东(dōng)西(xi),服(fú)务(wu)于(yú)千(qiān)行(xíng)百(bǎi)业(yè)。

“现(xiàn)在(zài)我(wǒ)们(men)很(hěn)多(duō)的(de)算(suàn)力(lì)中(zhōng)心(xīn)应(yīng)用(yòng)场(chǎng)景(jǐng)、客(kè)户(hù)群(qún)体(tǐ)等(děng)都(dōu)较(jiào)为(wèi)单(dān)一(yī),远(yuǎn)不(bù)能(néng)发(fā)挥(huī)其(qí)全部(bù)作(zuò)用(yòng)。”雷(léi)涛(tāo)说(shuō),“现(xiàn)在(zài)已(yǐ)是(shì)AI+的(de)时(shí)代(dài),AI本(běn)身(shēn)正(zhèng)在(zài)与(yǔ)千(qiān)行(xíng)百(bǎi)业(yè)相(xiāng)结(jié)合(hé),已(yǐ)渐(jiàn)渐(jiàn)成(chéng)为(wèi)一(yī)种(zhǒng)基(jī)础(chǔ)性(xìng)工(gōng)具(jù),国(guó)家(jiā)建(jiàn)设(shè)的(de)算(suàn)力(lì)基(jī)础(chǔ)设(shè)施(shī),也(yě)应(yīng)该(gāi)把(bǎ)重(zhòng)点(diǎn)放(fàng)在(zài)服(fú)务(wu)各(gè)行(xíng)各(gè)业(yè)上(shàng)。”

未(wèi)来(lái)AI将(jiāng)自(zì)己(jǐ)生(shēng)产(chǎn)训(xun)练(liàn)所(suǒ)需(xū)的(de)数(shù)据(jù)

春(chūn)节(jié)期(qī)间(jiān),国(guó)产(chǎn)大(dà)模(mó)型(xíng)DeepSeek-R1横(héng)空(kōng)出(chū)世(shì),证明了用更低的成本、更少的算力需求,就可以实现世界一流的模型性能水平。据测算,DeepSeek-R1模型仅花费约600万美元就完成了训练,约为美国和欧盟同类大语言模型成本的1/50.在某些方面,该模型比OpenAI的o1模型要好得多。更重要的是,R1的运营成本仅为OpenAI通常对计算密集型输出收取的费用的3%。

雷涛认为,DeepSeek实现了大模型的祛魅,开启了中美后训练时代的大门,曾经被广泛依赖的技术大模型预训练模式,如今已不再是唯一的 “金(jīn)科玉律”。相比算力过剩的问题,我们更应该关注的是算力和效率都满足的情况下有没有可以用来训练的优质数据。

实际上,数据是大模型的核心竞争力,高质量的数据资源会成为核心生产力,AI模型生产的内容高度依赖源头数据。有研究机构估计,机器学习可能会在2026年前耗尽所有“高质量语言数据”。

雷涛表示,今天的数据并不能满足明天的AI使用,明天的AI要自己生产数据资源。数据质量的高低并非由主观认知简单判定,而是取决于所采用的AI算法。如今已有大量数据由AI生成,但这并不意味着这些数据就是 “假数据”。

“所谓高质量与低质量数据,其评价标准与方式,归根结底在于AI算法。” 雷涛进一步阐释,“这就是当下热议的数据飞轮概念。AI模型使用的数据由其自身生成,数据飞轮正是构建模型持续迭代生长的关键方法。”

很多人说AI自我生成的合成数据是虚拟的、空数据或者说是造出来的数据。不过雷涛认为,合成数据是已知的数据通过确定的逻辑生产出来的数据,这些结果数据服务于真实的生产过程。

他还举了个例子,“百模大战”过后,为什么英伟达发布的大模型还可以挤到第一阵营?英伟达模型训练使用了98%的合成数据。无独有偶,特斯拉也是用合成数据获得具身机器人的智能。

合成数据可降低对真实数据的依赖

雷涛认为,硬件的增长遵循摩尔定律,而数据的增长则呈现指数型态势。我们如今所处的时代,已然是机器生产数据的时代,合成数据则是未来算力的主要解决方案。

合成数据究竟又是如何生成的呢?雷涛打了个比方,往一瓶水中滴一滴墨水,墨水会从相对简单的状态逐渐扩散,变得复杂、分散。通过逆扩散算法识别墨水扩散规律,就能模拟出不同的墨水扩散场景。合成数据也是利用类似原理,抓住核心规律,从简单数据出发,模拟数据的复杂变化过程,创造出丰富多样的数据。

“人类的抽象逻辑留给我们的数据资产有限,都是信息化进程中沉淀下来的结构化概要信息。而要把这些概要信息转变为能(néng)用(yòng)于(yú)理(lǐ)解(jiě)和(hé)处(chù)理(lǐ)复(fù)杂(zá)世(shì)界(jiè)中(zhōng)复(fù)杂(zá)系(xì)统(tǒng)的(de)内(nèi)容(róng),就(jiù)需(xū)要(yào)大(dà)量(liàng)合(hé)成(chéng)数(shù)据(jù)。”他(tā)说(shuō)。

另外,在某些特定领域或场景下,获取真实数据存在困难。以自动驾驶领域为例,其需要百万级别的路况数据,涵盖模拟极端灾难天气、极端恶性交通(tōng)事(shì)故(gù)(如(rú)波(bō)音(yīn)747在(zài)高速公路上迎面迫降)、复杂路况(如路面破损、立交桥断桥)等情况的数据。这些数据难以从现实世界获取,而合成数据可按需生成,填补数据缺口,降低对有限真实数据的依赖。

后训练推动AI从“发动机时代”走向“造车时代”

雷涛表示,当前,大模型的预训练时代已经结束,后训练时代正式开启。在后训练时代,大模型构建起从数据生成到模型强化的正向循环机制至关重要。就像移动互联网时代搜推系统的“数据飞轮”效应——通过应用数据优化算法,算法又反哺应用,人工智能大模型也应形成“数据飞轮”,借助AI生产训练数据实现自我训练。

他还认为,后训练的核心在于从通用模型到领域知识、再到个体经验的深化。谷歌提出的L0-L6层级标准为后训练提供了框架,从基础模型的泛泛问答到高级的强化学习和智能体应用,后训练将推动AI从“发动机时代”走向“造车时代”。

“国内AI市场已经全面进入后训练时代,企业需要从通用模型出发,结合传统机器学习和机理方法,最终实现个体化的应用。”他说。

来源:北京科技报