开源第二弹!DeepSeek突破极限,颠覆级创新

2025-02-28 09:12:20 科技

2月25日,DeepSeek在“开源周”的第二日开源了DeepEP通信库。DeepSeek表示,这是第一个用于MoE(专家)模型训练和推理的开源EP通信库。

“高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA(远程直接内存访问,一种通信技术);用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU(图形处理器)资源控制,实现计算与通信重叠。”DeepSeek如此介绍DeepEP的特点。

EP即expert parallelism(专家并行),是一种在(zài)大(dà)规模分布式AI模型训练中使用的技术,能用于提升模型并行处理能力和训练效率。DeepSeek表示,对于延迟敏感的推理解码任务,DeepEP包含有一组使用纯RDMA的低延迟内核,可以用于将延迟最小化,DeepEP还(hái)引(yǐn)入(rù)一(yī)种(zhǒng)通(tōng)信(xìn)与(yǔ)计(jì)算(suàn)重(zhòng)叠(dié)的(de)方(fāng)法(fǎ),这(zhè)种(zhǒng)方(fāng)法(fǎ)可(kě)以(yǐ)不(bù)占(zhàn)用(yòng)SM(流(liú)处(chù)理(lǐ)器(qì))资(zī)源(yuán)。简(jiǎn)而(ér)言(yán)之(zhī),DeepEP也(yě)是(shì)用(yòng)于(yú)提(tí)升(shēng)GPU(图(tú)形(xíng)处(chù)理(lǐ)器(qì))利(lì)用(yòng)效(xiào)率(lǜ)的(de)关键技(jì)术(shù)之(zhī)一(yī)。

有(yǒu)位(wèi)软(ruǎn)件(jiàn)工(gōng)程(chéng)师(shī)激(jī)动(dòng)地(de)表(biǎo)示(shì),“DeepSeek在(zài)MoE模(mó)型(xíng)上(shàng)所(suǒ)达(dá)到(dào)的(de)优(yōu)化(huà)水(shuǐ)平(píng),令(lìng)人(rén)印(yìn)象(xiàng)深(shēn)刻(kè),因(yīn)为(wèi)MoE模(mó)型(xíng)因(yīn)其(qí)规(guī)模(mó)和(hé)复(fù)杂(zá)性(xìng)而(ér)广(guǎng)为(wèi)人(rén)知(zhī),难(nán)度(dù)非(fēi)常(cháng)大(dà)。而(ér)DeepEP能(néng)够(gòu)如(rú)此(cǐ)精(jīng)确(què)地(de)处(chù)理(lǐ)这(zhè)些(xiē)问(wèn)题(tí),使(shǐ)用(yòng)像(xiàng)NVLink和(hé)RDMA这(zhè)样(yàng)的(de)先(xiān)进(jìn)硬(yìng)件(jiàn),并(bìng)且(qiě)支(zhī)持(chí)FP8,真(zhēn)是(shì)太(tài)牛(niú)了(le)。”


有(yǒu)网(wǎng)友(you)称(chēng),DeepSeek再(zài)次(cì)突(tū)破(pò)了(le)AI基(jī)础(chǔ)设(shè)施(shī)的(de)极(jí)限(xiàn)。这(zhè)种(zhǒng)创(chuàng)新(xīn)方(fāng)法(fǎ)或(huò)将(jiāng)改(gǎi)变(biàn)AI领(lǐng)域的(de)沟(gōu)通(tōng)方(fāng)式(shì)。从(cóng)此(cǐ),AI开(kāi)发(fā)者(zhě)也(yě)许(xǔ)能(néng)有(yǒu)效(xiào)突(tū)破(pò)大(dà)规(guī)模(mó)AI模(mó)型(xíng)的(de)界(jiè)限(xiàn)。

性(xìng)能(néng)可(kě)比(bǐ)肩(jiān)OpenAI o1的(de)DeepSeek-R1是(shì)基(jī)于(yú)DeepSeek-V3训(xun)练(liàn)出(chū)来(lái)的(de)模(mó)型(xíng),DeepSeek-V3此(cǐ)前(qián)就(jiù)以(yǐ)不(bù)大(dà)规(guī)模(mó)使(shǐ)用(yòng)最(zuì)先(xiān)进(jìn)的(de)英(yīng)伟(wěi)达(dá)GPU、低(dī)训(xun)练(liàn)预(yù)算(suàn)著(zhe)称(chēng)。为(wèi)了(le)在(zài)已(yǐ)有(yǒu)的(de)GPU上(shàng)训(xun)练(liàn)大(dà)模(mó)型(xíng),DeepSeek进(jìn)行(xíng)了(le)诸(zhū)多(duō)创(chuàng)新(xīn),以(yǐ)高(gāo)效(xiào)利(lì)用(yòng)GPU算(suàn)力(lì)。有(yǒu)学(xué)界(jiè)人(rén)士(shì)此(cǐ)前(qián)就(jiù)解(jiě)读(dú)了(le)DeepSeek-V3实(shí)现(xiàn)计(jì)算(suàn)与(yǔ)通(tōng)信(xìn)重叠的重要作用。

清华大学计算机系长聘教授翟季冬在解读DeepSeek的相关技术时表示,DeepSeek-V3为了训练(liàn)效(xiào)率(lǜ)提(tí)升(shēng),做(zuò)了四方面的优化,包括负载均衡、通信优化、内存优化和计算优化。为此,DeepSeek团队充分挖掘了算法、软件和硬件协同创新的潜力,例如为了降低通信开销想了很多办法,包括精细化编排计算和通讯。“DeepSeek提出一种流水线并行算法DualPipe,通过精细控制分配给计算和通信的GPU SM数量,实现计算和(hé)通(tōng)信(xìn)完(wán)全重(zhòng)叠(dié),从(cóng)而(ér)提(tí)高(gāo)GPU资(zī)源(yuán)的(de)利(lì)用(yòng)率(lǜ)。期(qī)间(jiān),DeepSeek团(tuán)队(duì)使(shǐ)用(yòng)了(le)英(yīng)伟(wěi)达(dá)底(dǐ)层(céng)的(de)PTX语(yǔ)言(yán)来(lái)控(kòng)制(zhì)SM的(de)使(shǐ)用(yòng)。” 翟(dí)季(jì)冬(dōng)表示。中存算半(bàn)导(dǎo)体(tǐ)董(dǒng)事(shì)长(zhǎng)陈(chén)巍(wēi)解(jiě)析(xī)DeepSeek-V3和(hé)R1训(xun)练(liàn)结(jié)构(gòu)的(de)独(dú)特(tè)优(yōu)势(shì)时(shí)也(yě)指(zhǐ)出(chū),DeepSeek设(shè)计(jì)了(le)DualPipe算(suàn)法(fǎ)来(lái)实(shí)现(xiàn)更(gèng)高(gāo)效(xiào)的(de)流(liú)水(shuǐ)线(xiàn)并(bìng)行(xíng),并(bìng)通(tōng)过(guò)计(jì)算(suàn)与(yǔ)通(tōng)信(xìn)的(de)重(zhòng)叠(dié)隐(yǐn)藏(cáng)了(le)大(dà)模(mó)型(xíng)训(xun)练(liàn)过(guò)程(chéng)中(zhōng)的(de)大(dà)部(bù)分(fēn)通(tōng)信(xìn)开(kāi)销(xiāo)。此(cǐ)外(wài),DeepSeek开(kāi)发(fā)了(le)跨(kuà)节(jié)点(diǎn)All-to-All通(tōng)信(xìn)内(nèi)核(hé),以(yǐ)充(chōng)分(fēn)利(lì)用(yòng)InfiniBand和(hé)NVLink带(dài)宽(kuān),对(duì)显(xiǎn)存(cún)使(shǐ)用(yòng)进(jìn)行(xíng)了(le)优(yōu)化(huà),使(shǐ)得(de)DeepSeek无(wú)需(xū)使(shǐ)用(yòng)昂(áng)贵(guì)的(de)张(zhāng)量(liàng)并(bìng)行(xíng)即(jí)可(kě)训(xun)练(liàn)DeepSeek-V3。就(jiù)开(kāi)源(yuán)DeepEP通(tōng)信(xìn)库(kù)的(de)影(yǐng)响(xiǎng)询(xún)问(wèn)DeepSeek后(hòu),它的回答是,DeepEP能显著提升MoE模型的训练和推理效率,显著降低计算资源消耗,开源DeepEP有助于降低AI技术的开发成本,且有助于减少重发开发。

DeepSeek此前宣布,本周会陆续开源5个代码库。加上2月24日开源的代码库FlashMLA,DeepSeek已开源了2个代码库,接下来还有3个代码库待开源。