2025-02-25 14:15:38
东(dōng)坡(pō)肉(ròu)、蘑(mó)菇(gu)炒(chǎo)青(qīng)菜(cài)、清(qīng)蒸(zhēng)鲫(jì)鱼(yú)、虾(xiā)仁(rén)豆(dòu)腐(fǔ)……做(zuò)了(le)满(mǎn)满(mǎn)一(yī)桌(zhuō)菜(cài),拍(pāi)张(zhāng)照(zhào)片(piàn)扔(rēng)给(gěi)AI,问(wèn)它(tā):图(tú)片(piàn)里(lǐ)的(de)哪(nǎ)种(zhǒng)食(shí)物(wù)蛋(dàn)白(bái)质(zhì)含(hán)量(liàng)最(zuì)高(gāo)?哪(nǎ)道(dào)菜(cài)尿(niào)酸(suān)偏(piān)高(gāo)的(de)人(rén)不(bù)宜(yi)多(duō)吃(chī)?
AI深度思考了几秒钟,打出推理全过程,最后在图片上将答案圈了出来。
这是学会推(tuī)理(lǐ)的(de)多(duō)模(mó)态(tài)大(dà)模(mó)型(xíng),未(wèi)来(lái)在(zài)日(rì)常(cháng)生(shēng)活(huó)中(zhōng)的(de)一(yī)个(gè)应(yīng)用(yòng)小(xiǎo)场(chǎng)景(jǐng)。此(cǐ)前(qián),这(zhè)种(zhǒng)“长(zhǎng)眼(yǎn)睛(jing)”、擅(shàn)长(zhǎng)推(tuī)理(lǐ)的(de)AI还(hái)停(tíng)留(liú)在(zài)想(xiǎng)象(xiàng)阶(jiē)段(duàn)。不(bù)过(guò)最(zuì)近(jìn),来(lái)自(zì)杭(háng)州(zhōu)Om AI Lab的(de)一(yī)群(qún)95后(hòu),已(yǐ)经(jīng)成(chéng)功(gōng)地(de)将(jiāng)DeepSeek-R1的(de)训(xun)练(liàn)方(fāng)法(fǎ),从(cóng)纯(chún)文本(běn)领(lǐng)域迁(qiān)移(yí)到(dào)视(shì)觉(jué)语(yǔ)言(yán)领(lǐng)域,打开了多模态大模型的更多想象空间。
他(tā)们(men)还(hái)将(jiāng)这(zhè)个(gè)名叫(jiào)VLM-R1的(de)项(xiàng)目(mù)开源,发布在全球最大的代码托管平台GitHub上,上线仅一周,就获得各国开发者给出的2.7k Stars(星标),并在2月21日登上热门趋势榜。这一成绩在这个开源社区里堪称亮眼。
VLM-R1上线GitHub一周的Star(星标)数据曲线

2月21日上了GitHub热门趋势榜
这支研发团队的带头人,是名90后——Om AI Lab的创始人赵天成博(bó)士(shì),他(tā)同(tóng)时(shí)也是浙江大学滨江研究院Om人工智能中心主任、博士生导师。
将(jiāng)教(jiào)DeepSeek-R1推理的方法
带到机器视觉领域
DeepSeek-R1模型的独特之处,在于DeepSeek对通用的模型推理步骤进行了调整。此前,模型在提升推理能力时,通常依赖“监督微调”(即SFT,监督式微调)这个环节。简单来说,就是拿一(yī)个(gè)已经学了(le)不(bù)少(shǎo)东(dōng)西(xi)的(de)大(dà)模(mó)型(xíng),用(yòng)一(yī)些(xiē)特(tè)定(dìng)的(de)、标(biāo)记(jì)好(hǎo)的(de)数(shù)据(jù),来(lái)教(jiào)它(tā)如(rú)何(hé)更(gèng)好(hǎo)地(de)完(wán)成(chéng)某(mǒu)个(gè)任(rèn)务(wu)。这(zhè)就(jiù)好(hǎo)比(bǐ)你(nǐ)已(yǐ)会(huì)做(zuò)菜(cài),但(dàn)具(jù)体(tǐ)到(dào)川(chuān)菜(cài)或(huò)徽(huī)菜(cài),还(hái)需(xū)通(tōng)过(guò)专(zhuān)门的练习来掌握烹饪技巧。
而DeepSeek-R1在训练过程中直接跳过了这个环节,进入(rù)“强(qiáng)化(huà)学(xué)习(xí)”阶段,探索大模型在没有监督数据的情况下,通过纯强化学习进行自我进化。这种创新性的强化学习方法,有个专业名词,叫群组相对策略优化(Group Relative Policy Optimization,GRPO)。
GRPO已经帮助DeepSeek-R1学习推理,那是否也能帮助AI模型在一般计算机视觉任务中表现得更强?
Om AI Lab研发团队反(fǎn)复(fù)实验后的答(dá)案(àn)是(shì):可以。
他们在一个(gè)视(shì)觉定位任务中,训练了通义开源视觉理解模型Qwen2.5-VL。在此基础上,同时用R1方法和SFT方法进行对比。目前得出的结论是:R1方法在各种复杂场景下,都能保持稳定的高性能。这(zhè)在(zài)实(shí)际(jì)应(yīng)用(yòng)时(shí)至(zhì)关重(zhòng)要(yào)。
如(rú)下(xià)图的街景照片,给AI的任务是:定位出图中可能对视障人士行走造成危险的物体。

在路边人行道的场景里,人类能想到对视障人士造成行走障碍的,通常是石墩子、公交站牌、行人等,这些就是可以提前标记好的“数据”。但在这张图中,出现了一个比较特殊的情况——台阶。
从赵天成团队的实验看,经过R1方法训练的AI模型,能够成功推理出台阶在这个场景中会对视障人士造成危险。
“对人类来说,这属于常识性推理,再容易不过。但对于此前传统的计算机视觉模型而言,这(zhè)其(qí)实(shí)非(fēi)常(cháng)难(nán)。”赵(zhào)天(tiān)成(chéng)解(jiě)释(shì)。
又(yòu)如(rú)下(xià)面(miàn)这(zhè)张(zhāng)图(tú),桌(zhuō)子(zi)上(shàng)放(fàng)着(zhe)山(shān)药(yào)、鸡(jī)蛋(dàn)饼(bǐng)、毛(máo)豆(dòu)、青(qīng)菜(cài)、咖(kā)啡(fēi)和(hé)橙(chéng)子(zi),让(ràng)AI定(dìng)位(wèi)图(tú)中(zhōng)含(hán)维(wéi)生(shēng)素(sù)C最(zuì)多(duō)的(de)食(shí)物(wù)。

使用R1方法训练的AI模型,很快锁定了橙子并附上思考过程。“以前它直给答案,不会告诉你解题思路,且错误率偏高,比如10道题最多答对四五题,而用R1方法训练的,能答对七八题。”
此外,机器学习领域有一种很常见的情况:用任务A去训练模型,随(suí)着(zhe)训(xun)练(liàn)步(bù)数(shù)(训(xun)练(liàn)模(mó)型(xíng)所(suǒ)执(zhí)行(xíng)的(de)迭(dié)代(dài)次(cì)数(shù))的(de)增(zēng)加(jiā),在(zài)跟(gēn)A没(méi)有(yǒu)那(nà)么(me)相(xiāng)似(shì)的(de)任(rèn)务(wu)B上(shàng),它(tā)的(de)性(xìng)能(néng)会(huì)变(biàn)差(图中红色曲线)。“有点‘摁了葫芦起了瓢’的意思。所以以前做多任务时,还要精心控制任务间的比例。”而使用R1方法训练的AI模型(图中绿色曲线)并不会出现这种趋势,这意味着R1方法能帮助模型真正“学会”理解视觉内(nèi)容,而不是简单地记忆。
绿色曲线是使用R1方法训练,红色曲线是使用传统的SFT方法。
为视觉语言模型训练
打了新思路
“实验从春节长假期间开始启动。好在前期积累比较多,很多‘基础设施’是现成的,有了想法后,能快速进行实验、验证结果。”组成团队的10人,有研究院的研发人员,也有赵天成带的博士生。
2月15日,赵天成在海外社交平台上发布VLM-R1的实验结果,并将它开源、上传到GitHub,截至2月22日,已获得全球开发者们给出的2.7k Stars。

大大小小的交流切磋问题蜂拥而来:要训练多久,最低显存是多少,能否再多分享几个模型思考过程……
“虽然底层逻辑是相通的,但视觉和数学、代码是完全不同的模态。怎么在视觉领域进行设计,让它真正跑通,团队其实也经历了多次试错,才找到目前这样一个比较有效的组合。”赵天成坦(tǎn)言,现在这个版(bǎn)本(běn)只能算是0.1版,远未达到成熟,“有一些问题,需要继续用更多实验来解答。”
在(zài)他(tā)看(kàn)来(lái),这(zhè)段(duàn)时(shí)间(jiān)的(de)实(shí)验(yàn),最(zuì)大(dà)意(yì)义(yì)之(zhī)一(yī)是(shì)为(wèi)多模态模型的训练和行业提供了一些新的思路。它证明了R1方法的通用性,“不仅在文本领域表现出色,还可能引领一种全新的视觉语言模型训练潮流。”
“做一个勇于尝试的引领者
比在风口追随着他人来得重要”
Om AI Lab背后的母公司联汇科技,位于杭州滨江互联网产业园,这里曾是阿里、网易崛起的摇篮,互联网和物联网技术从这里走入我们的日常生活。眼下,人工智能成了主角,这家公司正在致力于人工智能智能体平台的应用和落地。
2月21日,由赵天成带队的Om AI Lab,在上海举行的2025全球开发者先锋大会(GDC)上,带去了基于R1强化学习的视觉理解多模态模型VLM-R1的首秀,以及开源大语言模型智能体评测平台Open Agent Leaderboard。

赵天成 (陈中秋 摄)
去年8月,赵天成在接受采访时说,他始终记得当年在美国卡耐基梅隆大学(CMU)求学时导师说的一句话:To be a leader, not a follower,做一个勇于尝试的引领者,远比在风口追随着他人来得重要(yào)。
(来(lái)源(yuán):潮(cháo)新(xīn)闻(wén))