雷涛:未来的AI,需要自主生产数据来训练自己

2025-04-08 11:01:32   阅览:451

“我们建设的各种算力基础设施,构建的庞大算力,不能仅仅供给AI企业,更应扩展视野,服务于千行百业。”近日,由北京市科协、北京科技记协组织的“首都科技人”宣传活动中天云数据CEO、第九届吴文俊人工智能科学技术发明奖获得者雷涛如此阐述自己对人工智能所需算力的理解。

雷涛是中国第一代Java开发者之一,20世纪90年代参与制定了存储行业国际标准,2000年,他推动云计算落地,后又带领团队一直深耕数据智能赛道。

坚持“做原创”,开发国产自研数据库

作为IT行业知名数据专家、首批中国计算机学会(CCF)大数据专委会委员,雷涛对于数据的价值有着独到的认识。他认为,“数字经济时代,我们要给数据赋能,让数据服务大众。如何做到这一点?首先需要新一代的基础设施,而数智技术搭建的正是这样一种大平台。”

而他自己,就是一个数据基础设施的搭建者。2010 年,当分布式数据和机器学习(AI)的曙光初现时,雷涛凭(píng)借(jiè)敏(mǐn)锐(ruì)的(de)洞(dòng)察(chá)力(lì),毅(yì)然(rán)投(tóu)身(shēn)到(dào)这(zhè)一(yī)领(lǐng)域,带(dài)领(lǐng)团(tuán)队(duì)研(yán)发(fā)国(guó)产(chǎn)自(zì)研(yán)数(shù)据(jù)库(kù)。

其(qí)实(shí)做(zuò)一(yī)个(gè)数(shù)据(jù)库(kù)工(gōng)程(chéng)并(bìng)不(bù)难(nán),把(bǎ)应(yīng)用(yòng)场(chǎng)景(jǐng)打(dǎ)磨(mó)好(hǎo),一(yī)两(liǎng)年(nián)时(shí)间(jiān)就(jiù)可(kě)以(yǐ)实(shí)现(xiàn)快(kuài)速(sù)盈(yíng)利(lì),但雷涛果断选择了“做原创”。

“做原创产品,才是下一代产品的核心命脉,工程只是在上一代产品上做延续性创新,无法支撑基础设施。”雷涛把几乎全部的资金都用在了研发上,可最初推向市场的时候,却经常被客户质疑。

但这所有的难,并没有让雷涛打退堂鼓,他最终开发出一套基于Go语言纯自研的HTAP数据库产品Hubble。这套数据库通过中国软件测评中心的源代码测试,系统自主研发率达到99.62%,完全符合国家信创战略,解决了基础设施“卡脖子”的难题。

有了自研的数据库,就有了未来面对国际巨头能够立足的底气与根本。雷涛说,现在机器传感物联网的数据时代已经到来,大量的数据(jù)通(tōng)过(guò)设(shè)备(bèi)或者产业服务产生出来,“而在我们搭建的基础设施之下,能诞生更多类似ChatGPT的智能应用。我们只要把数字基建搭好,把平台不断完善,数据就能真(zhēn)正(zhèng)服(fú)务(wu)每(měi)一(yī)个(gè)人(rén)。”

近(jìn)年(nián)来(lái),人(rén)工(gōng)智(zhì)能(néng)的(de)快(kuài)速(sù)发(fā)展(zhǎn)深(shēn)刻(kè)地(de)改(gǎi)变(biàn)着(zhe)各(gè)个(gè)行(xíng)业(yè)的(de)格(gé)局(jú)。2019年(nián),资(zī)本(běn)市(shì)场(chǎng)剧(jù)烈(liè)震(zhèn)荡(dàng),伞(sǎn)形(xíng)信(xìn)托(tuō)引(yǐn)发(fā)的(de)配(pèi)资(zī)乱(luàn)象(xiàng)让(ràng)传(chuán)统(tǒng)规(guī)则(zé)监管束手无策。雷涛带(dài)领(lǐng)的(de)天(tiān)云(yún)数(shù)据(jù)团(tuán)队(duì)另(lìng)辟(pì)蹊(qī)径,将(jiāng)600万(wàn)正(zhèng)常(cháng)账(zhàng)户(hù)数(shù)据(jù)与(yǔ)2000多(duō)个(gè)问(wèn)题(tí)账(zhàng)户(hù)“喂(wèi)”给(gěi)深(shēn)度(dù)学(xué)习(xí)模(mó)型(xíng),让(ràng)人(rén)工(gōng)智(zhì)能(néng)自主发现人类难以察觉的异常模式。

“就像训练警犬识别新型毒品,我们不需要告诉它化学成分,只需让它记住气味。”雷涛说,这套系统将监管效率提升数个量级,成为“证监会版”监(jiān)管(guǎn)沙(shā)盒(hé)项(xiàng)目(mù)之(zhī)一(yī)。

他(tā)拿(ná)出(chū)手(shǒu)机(jī)展(zhǎn)示(shì)团(tuán)队(duì)研(yán)发(fā)的(de)工(gōng)业(yè)检(jiǎn)测(cè)系(xì)统(tǒng),AI通(tōng)过(guò)3D点(diǎn)云(yún)数(shù)据(jù),能(néng)像(xiàng)资(zī)深(shēn)技(jì)工(gōng)般(bān)“摸(mō)”出精密零件的微米级瑕疵。“语言大模型是二维革命,视觉大模型是2.5维突破,空间计算将开启三维智能时代。”他说。

在雷涛和团队的努力之下,现在的天云数据,能同时提供国产HTAP数据库Hubble与AI平台型基础设施,并被评为国家级高新技术企业,首批中关村前沿科技企业,以及Forrester人工智能认知层第一象限公司。

算力基础设施应服务于千行百业

人工智能有三大核心要素,即所谓算力、算法、数据,其中算力可以说是其中的基础。什么是算力?通俗地说,就是计算能力,代表数据中心的服务器对数据进行处理后实现结果输出的一种能力。

人们常说,人工智能的尽头是算力,而算力的尽头是电力。数据显示,2023年我国算力中心能耗总量为1500亿千瓦时,同比增长15.4%,约占全社会用电量的1.6%。可见算力增长也会大幅增加对电力的消耗。雷涛表示,现在已有越来越多的国内外AI巨头积极与能源电力企业合作,有的甚至直接生产电力,以满足算力快速增长对于电力的庞大需求。

在我国,很多地方正大力建设算力基础设施,投资不菲。雷涛认为,大家顺应AI时代潮流进行这些建设本来是件好事,但也要考虑实际情况,因地制宜,不要搞重复建设,更不能有投机的想法。“规划建设过程中要看清AI的发展趋势,紧跟技术前沿,不要再做一些已经明显落伍的东西,所谓一步落后,步步落后!”他说。

雷涛还表示,建好的算力基础设施要如何发挥作用很关键,不能仅仅满足AI企业需要,更要关注MaSS市场(大众市场),要让算力像互联网或者水、空气一样,成(chéng)为(wèi)一(yī)种(zhǒng)基(jī)础(chǔ)的(de)东(dōng)西(xi),服(fú)务(wu)于(yú)千(qiān)行(xíng)百(bǎi)业(yè)。

“现(xiàn)在(zài)我(wǒ)们(men)很(hěn)多(duō)的(de)算(suàn)力(lì)中(zhōng)心(xīn)应(yīng)用(yòng)场(chǎng)景(jǐng)、客(kè)户(hù)群(qún)体(tǐ)等(děng)都(dōu)较(jiào)为(wèi)单(dān)一(yī),远(yuǎn)不(bù)能(néng)发(fā)挥(huī)其(qí)全部(bù)作(zuò)用(yòng)。”雷(léi)涛(tāo)说(shuō),“现(xiàn)在(zài)已(yǐ)是(shì)AI+的(de)时(shí)代(dài),AI本(běn)身(shēn)正(zhèng)在(zài)与(yǔ)千(qiān)行(xíng)百(bǎi)业(yè)相(xiāng)结(jié)合(hé),已(yǐ)渐(jiàn)渐(jiàn)成(chéng)为(wèi)一(yī)种(zhǒng)基(jī)础(chǔ)性(xìng)工(gōng)具(jù),国(guó)家(jiā)建(jiàn)设(shè)的(de)算力基础设施,也应该把重点放在服务各行各业上。”

未来AI将自己生产训练所需的数据

春节期间,国产大模型DeepSeek-R1横空出世,证明了用更低的成本、更少的算力需求,就可以实现世界一流的模型性能水平。据测算,DeepSeek-R1模型仅花费约600万美元就完成了训练,约为美国和欧盟同类大语言模型成本的1/50.在某些方面,该模型比OpenAI的o1模型要好得多。更重要的是,R1的运营成本仅为OpenAI通常对计算密集型输出收取的费用的3%。

雷涛认为,DeepSeek实现了大模型的祛(qū)魅(mèi),开(kāi)启了中美后训练时代的大门,曾经被广泛依赖的技术大模型预训练模式,如今已不再是唯一的 “金科玉律”。相比算力过剩的问题,我们更应该关注的是算力和效率都满足的情况下有没有可以用来训练的优质数据。

实际上,数据是大模型的核心竞争力,高质量的数据资源会成为核心生产力,AI模型生产的内容高度依赖源头数据。有研究机构估计,机器学习可能会在2026年前耗尽所有“高质量语言数据”。

雷涛表示,今天的数据并不能满足明天的AI使用,明天的AI要自己生产数据资源。数据质量的高低并非由主观认知简单判定,而(ér)是(shì)取(qǔ)决于所采用的AI算法。如今已有大量数据由AI生成,但这并不意味着这些数据就是 “假数据”。

“所谓高质量与低质量数据,其评价标准与方式,归根结底在于AI算法。” 雷涛进一步阐释,“这就是当下热议的数据飞轮概念。AI模型使用的数据由其自身生成,数据飞轮正是构建模型持续迭代生长的关键方法。”

很多人说AI自我生成的合成数据是虚拟的、空数据或者说是造出来的数据。不过雷涛认为,合成数据是已知的数据通过确定的逻辑生产出来的数据,这些结果数据服务于真实的生产过程。

他还举了个例子,“百模大战”过后,为什么英伟达发布的大模型还可以挤到第一阵营?英伟达模型训练使用了98%的合成数据。无独有偶,特斯拉也是用合成数据获得具身机器人的智能。

合成数据可降低对真实数据的依赖

雷涛认为,硬件的增长遵循摩尔定律,而数据的增长则呈现指数型态势。我们如今所处的时代,已然是机器生产数据的时代,合成数据则是未来算力的主要解决方案。

合成数据究竟又是如何生成的呢?雷涛打了个比方,往一瓶水中滴一滴墨水,墨水会从相对简单的状态逐渐扩散,变得复杂、分散。通过逆扩散算法识别墨水扩散规律,就能模拟出不同的墨水扩散场景。合成数据也是利用类似原理,抓住核心规律,从(cóng)简(jiǎn)单(dān)数(shù)据(jù)出(chū)发(fā),模(mó)拟(nǐ)数(shù)据(jù)的(de)复(fù)杂(zá)变(biàn)化(huà)过(guò)程(chéng),创(chuàng)造(zào)出(chū)丰(fēng)富(fù)多(duō)样(yàng)的(de)数(shù)据(jù)。

“人(rén)类(lèi)的(de)抽(chōu)象(xiàng)逻(luó)辑(ji)留(liú)给(gěi)我(wǒ)们(men)的(de)数(shù)据(jù)资(zī)产(chǎn)有(yǒu)限(xiàn),都(dōu)是(shì)信(xìn)息(xi)化(huà)进(jìn)程(chéng)中(zhōng)沉(chén)淀(diàn)下(xià)来(lái)的(de)结(jié)构(gòu)化(huà)概(gài)要(yào)信(xìn)息(xi)。而(ér)要(yào)把(bǎ)这(zhè)些(xiē)概(gài)要(yào)信(xìn)息(xi)转(zhuǎn)变(biàn)为(wèi)能(néng)用(yòng)于(yú)理解和处理复杂世界中复杂系统的内容,就需要大量合成数据。”他说。

另外,在某些特定领域或场景下,获取真实数据存在困难。以自动驾驶领域为例,其需要百万级别的路况(kuàng)数(shù)据,涵盖模拟极端灾难天气、极端恶性交通事故(如波音747在高速公路上迎面迫降)、复杂路况(如路面破损、立交桥断桥)等情况的数据。这些数据难以从现实世界获取,而合成数据可按需生成,填补数据缺口,降低对有限真实数据的依赖。

后训练(liàn)推(tuī)动(dòng)AI从(cóng)“发(fā)动(dòng)机(jī)时(shí)代(dài)”走(zǒu)向(xiàng)“造(zào)车(chē)时(shí)代(dài)”

雷(léi)涛(tāo)表(biǎo)示(shì),当(dāng)前(qián),大(dà)模(mó)型(xíng)的(de)预(yù)训(xun)练(liàn)时(shí)代(dài)已(yǐ)经(jīng)结(jié)束(shù),后(hòu)训(xun)练(liàn)时(shí)代(dài)正(zhèng)式(shì)开(kāi)启(qǐ)。在(zài)后(hòu)训(xun)练时代,大模型构建起从数据生成到模型强化的正向循环机制至(zhì)关重要。就像移动互联网时代搜推系统的“数据飞轮”效应——通过应用数据优化算法,算法又反哺(bǔ)应(yīng)用(yòng),人(rén)工(gōng)智(zhì)能(néng)大(dà)模(mó)型(xíng)也(yě)应(yīng)形(xíng)成(chéng)“数(shù)据(jù)飞(fēi)轮(lún)”,借(jiè)助(zhù)AI生(shēng)产(chǎn)训(xun)练(liàn)数据实(shí)现(xiàn)自(zì)我训练。

他还认为,后训练的核心在于从通用模型到领域知识、再到个体经验的深化。谷歌提出的L0-L6层级标准为后训练提供了框架,从基础模型的泛泛问答到高级的强化学习和智能体应用,后训练将推动AI从“发动机时代”走向“造车时代”。

“国内AI市场已经全面进入后训练时代,企业需要从通用模型出发,结合传统机器学习和机理方法,最终实现个体化的应用。”他说。

来源:北京科技报