DeepSeek新应用！这群杭州90后做的事上热搜-科技

DeepSeek新应用！这群杭州90后做的事上热搜 2025-02-25 14:15:38 科技

东(dōng)坡(pō)肉(ròu)、蘑(mó)菇(gu)炒(chǎo)青(qīng)菜(cài)、清(qīng)蒸(zhēng)鲫(jì)鱼(yú)、虾(xiā)仁(rén)豆(dòu)腐(fǔ)……做(zuò)了(le)满(mǎn)满(mǎn)一(yī)桌(zhuō)菜(cài)，拍(pāi)张(zhāng)照(zhào)片(piàn)扔(rēng)给(gěi)AI，问(wèn)它(tā)：图(tú)片(piàn)里(lǐ)的(de)哪(nǎ)种(zhǒng)食(shí)物(wù)蛋(dàn)白(bái)质(zhì)含(hán)量(liàng)最(zuì)高(gāo)？哪(nǎ)道(dào)菜(cài)尿(niào)酸(suān)偏(piān)高(gāo)的(de)人(rén)不(bù)宜(yi)多(duō)吃(chī)？

AI深度思考了几秒钟，打出推理全过程，最后在图片上将答案圈了出来。

这是学会推(tuī)理(lǐ)的(de)多(duō)模(mó)态(tài)大(dà)模(mó)型(xíng)，未(wèi)来(lái)在(zài)日(rì)常(cháng)生(shēng)活(huó)中(zhōng)的(de)一(yī)个(gè)应(yīng)用(yòng)小(xiǎo)场(chǎng)景(jǐng)。此(cǐ)前(qián)，这(zhè)种(zhǒng)“长(zhǎng)眼(yǎn)睛(jing)”、擅(shàn)长(zhǎng)推(tuī)理(lǐ)的(de)AI还(hái)停(tíng)留(liú)在(zài)想(xiǎng)象(xiàng)阶(jiē)段(duàn)。不(bù)过(guò)最(zuì)近(jìn)，来(lái)自(zì)杭(háng)州(zhōu)Om AI Lab的(de)一(yī)群(qún)95后(hòu)，已(yǐ)经(jīng)成(chéng)功(gōng)地(de)将(jiāng)DeepSeek-R1的(de)训(xun)练(liàn)方(fāng)法(fǎ)，从(cóng)纯(chún)文本(běn)领(lǐng)域迁(qiān)移(yí)到(dào)视(shì)觉(jué)语(yǔ)言(yán)领(lǐng)域，打开了多模态大模型的更多想象空间。

他(tā)们(men)还(hái)将(jiāng)这(zhè)个(gè)名叫(jiào)VLM-R1的(de)项(xiàng)目(mù)开源，发布在全球最大的代码托管平台GitHub上，上线仅一周，就获得各国开发者给出的2.7k Stars（星标），并在2月21日登上热门趋势榜。这一成绩在这个开源社区里堪称亮眼。

VLM-R1上线GitHub一周的Star（星标）数据曲线

2月21日上了GitHub热门趋势榜

这支研发团队的带头人，是名90后——Om AI Lab的创始人赵天成博(bó)士(shì)，他(tā)同(tóng)时(shí)也是浙江大学滨江研究院Om人工智能中心主任、博士生导师。

将(jiāng)教(jiào)DeepSeek-R1推理的方法

带到机器视觉领域

DeepSeek-R1模型的独特之处，在于DeepSeek对通用的模型推理步骤进行了调整。此前，模型在提升推理能力时，通常依赖“监督微调”（即SFT，监督式微调）这个环节。简单来说，就是拿一(yī)个(gè)已经学了(le)不(bù)少(shǎo)东(dōng)西(xi)的(de)大(dà)模(mó)型(xíng)，用(yòng)一(yī)些(xiē)特(tè)定(dìng)的(de)、标(biāo)记(jì)好(hǎo)的(de)数(shù)据(jù)，来(lái)教(jiào)它(tā)如(rú)何(hé)更(gèng)好(hǎo)地(de)完(wán)成(chéng)某(mǒu)个(gè)任(rèn)务(wu)。这(zhè)就(jiù)好(hǎo)比(bǐ)你(nǐ)已(yǐ)会(huì)做(zuò)菜(cài)，但(dàn)具(jù)体(tǐ)到(dào)川(chuān)菜(cài)或(huò)徽(huī)菜(cài)，还(hái)需(xū)通(tōng)过(guò)专(zhuān)门的练习来掌握烹饪技巧。

而DeepSeek-R1在训练过程中直接跳过了这个环节，进入(rù)“强(qiáng)化(huà)学(xué)习(xí)”阶段，探索大模型在没有监督数据的情况下，通过纯强化学习进行自我进化。这种创新性的强化学习方法，有个专业名词，叫群组相对策略优化（Group Relative Policy Optimization,GRPO）。

GRPO已经帮助DeepSeek-R1学习推理，那是否也能帮助AI模型在一般计算机视觉任务中表现得更强？

Om AI Lab研发团队反(fǎn)复(fù)实验后的答(dá)案(àn)是(shì)：可以。

他们在一个(gè)视(shì)觉定位任务中，训练了通义开源视觉理解模型Qwen2.5-VL。在此基础上，同时用R1方法和SFT方法进行对比。目前得出的结论是：R1方法在各种复杂场景下，都能保持稳定的高性能。这(zhè)在(zài)实(shí)际(jì)应(yīng)用(yòng)时(shí)至(zhì)关重(zhòng)要(yào)。

如(rú)下(xià)图的街景照片，给AI的任务是：定位出图中可能对视障人士行走造成危险的物体。

在路边人行道的场景里，人类能想到对视障人士造成行走障碍的，通常是石墩子、公交站牌、行人等，这些就是可以提前标记好的“数据”。但在这张图中，出现了一个比较特殊的情况——台阶。

从赵天成团队的实验看，经过R1方法训练的AI模型，能够成功推理出台阶在这个场景中会对视障人士造成危险。

“对人类来说，这属于常识性推理，再容易不过。但对于此前传统的计算机视觉模型而言，这(zhè)其(qí)实(shí)非(fēi)常(cháng)难(nán)。”赵(zhào)天(tiān)成(chéng)解(jiě)释(shì)。

又(yòu)如(rú)下(xià)面(miàn)这(zhè)张(zhāng)图(tú)，桌(zhuō)子(zi)上(shàng)放(fàng)着(zhe)山(shān)药(yào)、鸡(jī)蛋(dàn)饼(bǐng)、毛(máo)豆(dòu)、青(qīng)菜(cài)、咖(kā)啡(fēi)和(hé)橙(chéng)子(zi)，让(ràng)AI定(dìng)位(wèi)图(tú)中(zhōng)含(hán)维(wéi)生(shēng)素(sù)C最(zuì)多(duō)的(de)食(shí)物(wù)。

使用R1方法训练的AI模型，很快锁定了橙子并附上思考过程。“以前它直给答案，不会告诉你解题思路，且错误率偏高，比如10道题最多答对四五题，而用R1方法训练的，能答对七八题。”

此外，机器学习领域有一种很常见的情况：用任务A去训练模型，随(suí)着(zhe)训(xun)练(liàn)步(bù)数(shù)（训(xun)练(liàn)模(mó)型(xíng)所(suǒ)执(zhí)行(xíng)的(de)迭(dié)代(dài)次(cì)数(shù)）的(de)增(zēng)加(jiā)，在(zài)跟(gēn)A没(méi)有(yǒu)那(nà)么(me)相(xiāng)似(shì)的(de)任(rèn)务(wu)B上(shàng)，它(tā)的(de)性(xìng)能(néng)会(huì)变(biàn)差（图中红色曲线）。“有点‘摁了葫芦起了瓢’的意思。所以以前做多任务时，还要精心控制任务间的比例。”而使用R1方法训练的AI模型（图中绿色曲线）并不会出现这种趋势，这意味着R1方法能帮助模型真正“学会”理解视觉内(nèi)容，而不是简单地记忆。

绿色曲线是使用R1方法训练，红色曲线是使用传统的SFT方法。

为视觉语言模型训练

打了新思路

“实验从春节长假期间开始启动。好在前期积累比较多，很多‘基础设施’是现成的，有了想法后，能快速进行实验、验证结果。”组成团队的10人，有研究院的研发人员，也有赵天成带的博士生。

2月15日，赵天成在海外社交平台上发布VLM-R1的实验结果，并将它开源、上传到GitHub，截至2月22日，已获得全球开发者们给出的2.7k Stars。

大大小小的交流切磋问题蜂拥而来：要训练多久，最低显存是多少，能否再多分享几个模型思考过程……

“虽然底层逻辑是相通的，但视觉和数学、代码是完全不同的模态。怎么在视觉领域进行设计，让它真正跑通，团队其实也经历了多次试错，才找到目前这样一个比较有效的组合。”赵天成坦(tǎn)言，现在这个版(bǎn)本(běn)只能算是0.1版，远未达到成熟，“有一些问题，需要继续用更多实验来解答。”

在(zài)他(tā)看(kàn)来(lái)，这(zhè)段(duàn)时(shí)间(jiān)的(de)实(shí)验(yàn)，最(zuì)大(dà)意(yì)义(yì)之(zhī)一(yī)是(shì)为(wèi)多模态模型的训练和行业提供了一些新的思路。它证明了R1方法的通用性，“不仅在文本领域表现出色，还可能引领一种全新的视觉语言模型训练潮流。”

“做一个勇于尝试的引领者

比在风口追随着他人来得重要”

Om AI Lab背后的母公司联汇科技，位于杭州滨江互联网产业园，这里曾是阿里、网易崛起的摇篮，互联网和物联网技术从这里走入我们的日常生活。眼下，人工智能成了主角，这家公司正在致力于人工智能智能体平台的应用和落地。

2月21日，由赵天成带队的Om AI Lab，在上海举行的2025全球开发者先锋大会（GDC）上，带去了基于R1强化学习的视觉理解多模态模型VLM-R1的首秀，以及开源大语言模型智能体评测平台Open Agent Leaderboard。

赵天成（陈中秋摄）

去年8月，赵天成在接受采访时说，他始终记得当年在美国卡耐基梅隆大学（CMU）求学时导师说的一句话：To be a leader, not a follower，做一个勇于尝试的引领者，远比在风口追随着他人来得重要(yào)。

（来(lái)源(yuán)：潮(cháo)新(xīn)闻(wén)）

官方网站-首页

DeepSeek新应用！这群杭州90后做的事上热搜

产品&技术

解决方案&服务

投资者关系

新闻中心

关于我们