小智头像图片
AI动态资讯 2025年06月13日
0 收藏 0 点赞 175 浏览 7646 个字
摘要 :

灵初智能陈源培:一个 00 后的机器人之梦: 上个月,福布斯发布 “30 Under 30 – Asia – AI (2025)” 榜单,灵初智能的联创陈源培位列其中,是榜单中少数的 00 后技术创业……

哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“灵初智能陈源培:一个 00 后的机器人之梦”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。

灵初智能陈源培:一个 00 后的机器人之梦

灵初智能陈源培:一个 00 后的机器人之梦:

上个月,福布斯发布 “30 Under 30 – Asia – AI (2025)” 榜单,灵初智能的联创陈源培位列其中,是榜单中少数的 00 后技术创业者。

认识陈源培的人可能想不到,这颗具身智能领域的新星,本科专业居然是土木工程。

大二时,陈源培参加了一场RoboMaster的机器人比赛,开始对机器人产生兴趣。他决定,不上课也要自学机器人。

比赛锻炼的是工程能力,陈源培希望追踪更多前沿领域,自己动手做科研。他先联系上杨耀东教授,在北大研究了一年灵巧手,后又给李飞飞实验室发邮件,前往斯坦福访学。

成为灵初智能的联创之前,陈源培想得最多的一个问题是:机器人怎么才能真正服务人类?

要为人类服务,本质还得落地。陈源培认为,学校的实验室接触不到真实场景,想把经验和算法在场景下用好,需要一个团队。

在杨耀东的推荐下,陈源培认识了灵初智能的创始人王启斌。回国后,陈源培作为联创加入灵初智能,负责技术上的研发。

灵初智能在 2024 年 12 月发布了首个基于强化学习的端到端模型 “Psi R0”,又于今年 4 月推出最新的分层端到端 VLA 模型 “Psi R1”,实现了机器人在开放环境下进行自主推理决策和长程灵巧操作的能力。这一系列的工作背后,都有陈源培的身影。

从零到一自学机器人,从四处访学到回国创业,每个节点的选择上,陈源培都是先做再看。

以下是 AI 科技评论与陈源培的对话。

新的方法论:强化学习+灵巧手

灵初智能陈源培:一个 00 后的机器人之梦

AI科技评论:为什么选择做灵巧手?

陈源培:我刚接触灵巧手是在2022年。当时用强化学习做灵巧手还是一个非常小众的领域,几乎没有人做。我们发现强化学习能在(机器人五指)上面做出一些非常灵巧的操作,就开始了灵巧手的研究。世界上最多的数据就是人的数据,灵巧手是和人手最接近的一种形态,是最容易利用上这些数据的。家政工作人员戴着手套工作、视频里人手操作的片段,都是灵巧手潜在的数据来源。

AI科技评论:第一个灵巧手的工作是什么?当时面临了哪些难题?

陈源培:我做的第一个项目是开源的 Benchmark——Bi-DexHands。当时国内用 Isaac 的比较少,但是我们看到了仿真在强化学习这种高自由度控制上的潜力。我们用灵巧手实现了一些当时看来比较 fancy(酷炫) 的任务,比如抛铅球、转魔方等大概 20 种不同的操作技能。这个开源工作我还是比较喜欢的,后面不少灵巧手的工作都是基于我们的代码。

当时面临两个问题。第一个问题是工程,当时的仿真器比较初级,我用的 Isaac 还是 Preview 第二个版本,基本没什么人用过,所以搭建整一套 pipeline(综合解决方案) 会比较难。第二个问题是强化学习的调试,强化学习训练一个任务就已经很难了,多任务的情况下非常考验强化学习的能力和算法的实现,当时NV官方的库rl-games还没出来,我们所有的算法都是自己写的。

AI科技评论:Bi-DexHands 和 Sequential Dexterity 这两个项目给你之后的工作带来了哪些启发?

陈源培:Bi-DexHands 是做仿真环境,后面工作都是基于 Bi-DexHands 的 Benchmark 继续做的。Sequential Dexterity 是我在斯坦福的项目,这个工作给我的启发更多是长程的概念,之前强化学习很少能做这么长的任务。我们发现可以扩展强化,把多个技能连接在一起。灵初发布的 Psi R0 和 R1 很重要的一个点就是怎么在 low level 上打通长程,我们采纳了之前的工作经验,所以完成得比较快。现在的 Sim2Real、一些长程的串联,基本上 Psi R0 都用上了。

AI科技评论:在你接触灵巧手的这些年,灵巧手发生了哪些变化?可以划分为哪几个发展阶段?

陈源培:灵巧手不是一个新问题,很早就有很多人在研究。

我在斯坦福的导师 Karen Liu,她早在上世纪九十年代就开始发灵巧手操作相关的论文。90 年代 Shadow 的灵巧手其实就出来了。后来 2000 年到 2020 年间灵巧手上面的进展非常有限,因为传统的控制方法对于灵巧手这种高维控制来说非常难,基于神经网络的强化学习,模仿学习这些“学习”理论又还没发展的特别好。

OpenAI 在 2019 年用 Sim2Real 的强化学习复原打乱的魔方,是灵巧手领域出现的第一个拐点,让大家看到了强化学习算法在灵巧手控制上的效果。当时他们拿了非常多的 CPU 集群做并行仿真,迁移也非常吃力,没有更多的数据做更多事,后面团队也解散了。第二个拐点是 Isaac 这种 GPU 并行仿真的出现,让我们能非常轻易地运行几万个并行环境,使得数据问题得以解决了一部分。

目前第三个拐点还没有出现,但可以看到,下一个可能是人类世界的数据利用率。未来如果能把人类活动里提取的数据转化成灵巧手能用的数据,我觉得会出现第三个拐点。

AI科技评论:强化学习是做灵巧手必不可少的一个部分吗?与传统的模仿学习相比,强化学习有哪些不可替代的优势?

陈源培:灵巧手控制是一个比较高维的问题,跟环境的交互也相对复杂,不用强化学习会非常难解。奖励在强化学习里是一个非常重要的机制,也是强化学习跟模仿学习比较重要的区别。模仿学习本质上是拟合数据,没有明确目标,只要把数据拟合好就行。但是强化学习不一样,强化学习有奖励机制,所以它有目标。

因为灵巧手的自由度比较高,所以传统控制方法特别难解决。假设灵巧手有24个自由度,那策略输出可能需要 24 维的向量来控制它,要知道夹爪只要输出一维的向量就可以了。

AI科技评论:当前灵巧手技术研发中,强化学习的自主探索能力会面临哪些挑战?会结合人类专家的经验进行训练吗?

陈源培:强化学习可以分为两种,一种是仿真强化学习(Sim2Real),在仿真里面训练然后迁移到真机里面;另一种是真机强化学习,直接在真实世界的机器人上面做强化学习。这两种各有各的问题,但也各有各的优势。仿真环境里可以自己设置奖励,训练也不难,主要难度是后面的 Sim2Real Transfer(Sim2Real迁移),会产生Sim2Real Gap(Sim2Real差距)。真机不像仿真有这么多个环境,机器人样本效率低、训练难,奖励奖励也很难设置。而且真机强化学习奖励的噪声相比仿真会很大,比如训练一个机器手到物体的移动,过程中可能会因物体Pose Estimation的抖动造成奖励机制的不精确。

现在都是结合人类专家经验进行训练。一个说的比较多的就是 Offline to Online (从离线到在线)的强化学习,把人类以前的数据用在一些强化学习的预训练上,提高强化学习样本效率。比如一个叫 RLPD 的算法,每次在真机强化学习创作过程中采样一半人类的数据,再采样一半机器人自己探索的数据,结合起来更新网络。这样每次更新的时候机器人都会把人类完成得比较好的数据作为参考。还有一种叫逆强化学习的方法,比如用人类的示教数据训一个奖励模型,用这个模型输出奖励来进行真机强化学习训练。

AI科技评论:2025 ICRA 大会上灵巧手大放异彩,有很多人说高精度、高级程度、视触觉融合会是下一代灵巧手竞争的关键,你怎么看待这个观点?

陈源培:从技术上来说,高精度和视触觉融合一直是下一代灵巧手竞争的关键。视触觉其实都研究好多年了,后面也很多人拿它做工作。但我觉得视触觉传感器的这个领域甚至可能比灵巧手还初级,所以这个东西肯定是未来研究的重点。但是我们要想好一个落地指标,比如视触觉到底能做到多小、怎么解决不稳定性等。

上下分层,模型各司其职

灵初智能陈源培:一个 00 后的机器人之梦

AI科技评论: Psi R1 模型这个工作的契机和背景是什么?在 Psi R0 的基础上增加了哪些亮点?

陈源培:Psi R0 是灵初团队成员以前工作的复现和有序整合,而 R1 的工作源自于灵初当时一直想展示的东西,比如 VLA 的长程规划和推理能力。我们当时想的是,有没有一个真正开放的场景可以让大家知道,推理能力是必要的。我们想了很久,最后想到打牌这个场景。打牌需要跟人交互,什么时候碰吃杠,什么时候抓牌,这些任务动态性高、时间长,可以体现出 VLA 推理能力的优势。

Psi R1 主要做上层大脑推理的能力。之前简单上下层结合对于强化到语义层面的学习比较弱,R1 是强化到 COAT,有更多思维链的能力。像我们打麻将,你要根据场上的局势和手牌决定出什么牌,包括要不要碰、出哪张牌,这些都不是一个简单的动作能描述清楚的,需要非常强的推理能力才能做到。

AI科技评论:Psi R1 作为分层端到端 VLA + 强化学习算法的模型,如何解决灵巧性和泛化性的问题?分层模型怎样提高数据采集效率?

陈源培:灵巧性主要来自于强化学习,强化学习本质是一个优化算法,会让高维机器人的控制以一种最高效的形式进行,所以显得更加灵巧。泛化性主要来源于上层的推理能力,可以解决各种开放性的问题。这也是 R0 为什么一直强调分层的原因,很大程度上是因为上下层可以各司其职。比如模型输出是直接 action的话很难做非常长期的推理。大脑要考虑到具体的执行的话,由于机器人的数据会比较少,拿它来微调VLM会丧失一定的推理能力。分层是一种更高效的做法,能发挥每个模型自己的优点。当然我们最后还做了一次端到端的联合训练来打通上下层的模态。

端到端的大模型基本上只能用机器人的数据,但分层的话,上层训练就不完全需要机器人,用一些互联网文本和视频数据就可以训练出一个比较通用的上层,训练下层的时候再用机器人数据就好了。仿真的数据我们也会用。互联网数据特别适合训练上层,数据量大,能训练出比较通用的推理能力。

AI科技评论:除了互联网和仿真数据,还有什么优质的数据采集途径?

陈源培:我觉得 in-the-wild(开放场景)数采的潜力非常大,会是未来的一个方向。灵初一直在研究 in-the-wild 的数据采集,这是我们研发的一个重点,应该很快就会出来。In-the-wild 的关键点是,怎么把 in-the-wild 数据通过算法转换成真实机器人能用的数据。

我之前在斯坦福做的最后一个工作就是把人类的数据迁移到机器人上。In-the-wild 采集的不是机器人数据,因为它是带在人身上的,所以会有 embodiment gap(具身差距)的问题。好处是数据量和 diversity(多样性) 程度可以比较大,而且都是真实数据。关于怎么把人手的数据转移到机器人操作的数据上。我们之前也有过一些用强化学习做处理的探索,现在在把它做的更好,这里面触觉模态会非常关键。

AI科技评论:2024 年灵初智能就提出了分层端到端快慢脑架构技术路线,Psi R1也采用了快慢脑架构,这会是未来技术收敛的方案吗?

陈源培:技术收敛未来很难有确定性的说法。自动驾驶就是个例子,刚开始会说端到端,后来不行再开始做分层,但最后又有些人重新回来做端到端。每一个技术拐点都很难说会不会收敛,我觉得真正能够产生技术收敛的时刻,肯定是它产生商业价值的时候。数采场里是采不出真正的通用策略所需要的数据的。

为什么我们在这种情况下会选择分层,是因为我们觉得这是更贴近模型算法上限的一个架构。举个简单的例子,对于真实场景来说,分层达到的效果比端到端 VLA 要好很多。可利用的数据源更多,也有比较好的模块化设计,所以我们才会继续往这方向做。具身和大模型不太一样,没有海量的大家都能获取到的数据,所以所有的公司都涉及一个冷启动的问题。分层做到后面可能又发现有端到端的机会,或者说有足够多的数据做端到端的训练,本质上还是效果说话。

灵初智能,落地的第一步

灵初智能陈源培:一个 00 后的机器人之梦

AI科技评论:为什么没有继续在美国读博,而是选择创业?

陈源培:主要有三点吧。第一,具身智能本质上还是工科,需要足够的资源和强大的团队才能做好。学校更多还是前沿探索,想要做一个真正能走进千家万户的产品还得在工业界里。第二,现在是一个非常好的时代,AI没有论资排辈,本质上是技术驱动,每个学习能力强的人都有机会,国家也比较支持硬科技创业。第三,可能是我是广东人,吃不惯国外的东西,觉得生活太痛苦了,哈哈。

AI科技评论:作为灵初智能的联创,你主要负责的工作内容是什么?如何协调技术与商业化落地之间的平衡?

陈源培:我主要负责技术研发和场景侧的相关策划。其实商业化和技术的协调,本质上就是能不能做出一个商业闭环的项目。首先得非常注重落地,研发要是在落地上产生不了价值也没用。部分通用技术路线目前仍面临落地挑战,灵初选择从结构化场景切入,是出于对当前技术成熟度和数据来源的理性判断。这个逻辑就是还是我之前说的,具身的数据从哪来,总不能靠开源数据集吧。所以灵初非常注重落地,甚至会拿落地衡量算法到底好不好,这就会有一些算法的妥协。

落地是一个泛化性和成功率的平衡。一些方法可能能吃下很多数据,但它噪声也多,虽然能提高泛化性,但是对于某个专业任务的成功率也会相应地降低。灵初不会为了追求通用性就降低场景的要求,有一些技术路线可能对于模型的训练或者研究意义来说比较好,但是落地成功率偏低,这些方法我们可能就暂时不会用。这部分工作更适合学术界,比较好的是我们也有北大-灵初联合实验室,会有一些非常强的同学和我们一起做产学研结合。

但从我个人观点来看,机器的研究其实跟工程非常相关,学术和落地是不可分割的。大家可能觉得落地偏工程,研究性质会少一点。但对于系统而言,工程是非常重要的。我自己做研究的方法论就是先把工程做到极致,再针对纯工程做不到的部分开发新算法。

AI科技评论:走出实验室,步入业界,你对具身智能的认知有发生什么变化吗?

陈源培:最大变化是对具身这个赛道的思考,如何有一个真正商业上可行的路径能实现通用机器人,而不是纯做研究。落地需要贴近真实场景的需求,以前我对这方面的思考比较少,现在更多会想着把一个产品做好。很多真正产生经济价值的东西确定性会非常高,成功率大多是 99.9%、99.99% 的指标。

可以想象一下,一万次里只要失误一次就可能给客户造成几十万损失,代价其实非常大。科研更多是讲究一个方法通用性,虽然能展示很多任务,但成功率可能只有 70、 80% 。落地得在一个小场景或者产品里把成功率做到 99.9%,评价指标更大。

AI科技评论:作为一个00后的联创,创业过程中有没有人对你的能力发出过质疑?

陈源培:肯定有,这种事无法避免。有些人懂技术的话,会根据你对技术的理解来进行判断。但也有人直接说你本科毕业就出来创业,别人博士做科研都五六年了,肯定比你懂得多。

我对这个其实没啥感觉,我 paper 也发过不少,然后我也去过北大和斯坦福访学,见识过世界上的顶级学者怎么做科研。最后,这个社会还是成果说话,当你会被质疑的时候,那一定是你的成果还不够强,打磨技术和产品才是根本。

AI科技评论:灵初智能专注于算法而非硬件,这个定位的特别之处在哪?

陈源培:算法和硬件不能完全分割开,因为算法基于数据,数据又跟硬件绑定,所以没法只看算法或只看硬件。灵初是以算法为核心、软硬结合的具身智能公司。中国硬件其实是很强的,主要是大家还没看到具身的一个商业闭环。灵初之所以更专注算法,是因为算法是能决定灵巧手能有多大市场的核心。如果之后大家看到了具身的可能性,我相信会有越来越多的好的硬件出来。

这里面还有个逻辑是什么呢?就是现在这波具身算法跟以前非标自动化的差别。非标自动化基本每个场景都需要重新调算法和设计硬件,这样就做不到通用。通用机器人需要本体能做各种各样的事,这种情况下就不可能为每个场景做优化,同时传感器等硬件成本也不能太高,这样才能真正作为一个标品放量,乃至最后To C。以前工业非标自动化,动不动一个工业相机就十几万。我们用的很可能就是几千的相机,降低了硬件部分的价格,硬件精度不够,就得算法来凑。

AI科技评论:听说你们计划率先在物流场景落地,为什么选择这一场景?物流场景当下能完成什么样的任务?

陈源培:灵初的 CEO 王启斌是物流背景,对行业了解比较深,资源也多。其次,物流是一个比较国际化的东西,国外也有物流的需求,可以拓展到海外市场。而且物流比较结构化,涉及的技能没那么复杂,同时接触到的物体又相对多元化。如果是工厂则会专门为了解决一个物体的操作而设计很多东西,导致数据和模型很难复用。

但对于物流来说,你见到的物流物品跟未来 ToC 的产品会比较类似,实现大规模落地还是比较有可能的。灵初未来一定是 ToC的,因为具身智能本质上跟汽车一样,未来得能做到人手一台的出货量,才能实现真正的商业价值。所以我判断,ToC 是一定的,只不过路径会有区别。

不同的场景做的也不一样,我们之前做过一些末端无人配送的东西,比如拿各种外卖袋然后放进车里,这种我们也算是解决得比较好了。后面也会瞄准一些海外场景,比如物流,把一个箱子里的各种物体抓起来扫完码后放到对应的传送袋里面。或者分拣一个货车,把对应的商品拿出来扫码后放到对应的箱子里。这些流程要求也会比较高,因为扫码过程必须要有一定的推理能力。

AI科技评论:目前具身领域包含自动驾驶、机械、AI等各种背景的人,你觉得不同领域的人对具身智能的理解有何不同?

陈源培:自动驾驶可能更关注宏观的东西,不涉及精细操作层面。自动驾驶算是一个不用精细操作的通用机器人,它要求的泛化性比机器人要强得多,但是精细程度没那么高。自动驾驶转过来做具身,肯定能复用一些东西,包括工程、感知、和落地方面的经验。即使算法上会有较大差别,但也有一定的指导意义,自动驾驶背景的人上手也会比较快。

机械背景的人我感觉更多是偏向于把机械设计用好,从机械优化的角度解决问题,而具身是怎么用算法把硬件做得更好,会从算法优化的角度解决问题。

AI 算法偏大模型训练,所以面对一个数据驱动的模型,AI 算法背景出身的人对网络理解更深刻,在模型训练和数据配比方面比较有经验。机器人更偏向于是一个系统,需要多个领域的知识才能做好。

AI科技评论:灵初智能下一步的计划是什么?在打造通用机器人上有什么想法吗?

陈源培:灵初还会继续做新的模型,追一些前沿的东西,提高VLA的能力,马上也会有一些新的架构出来。另一个工作重点是落地,机器人要是不在落地场景里打磨,是一定产生不了经济价值的。后面也需要开发新算法,会更聚集在一个比较结构化的场景里。

现在大家肯定也意识到,现在说通用机器人落地的故事一定是不合理的,连一个专用的机器人都没做到落地,更何况通用机器人。还是那个原因,机器人不像大模型有互联网这么一个大数据来源,数据怎么来一直是个很大的问题。我一直跟别人说的是,先在某些半结构化场景中打磨模型,收集数据,直到某一些技能能有很好的泛化性,那这时他就成为了一个标品,可以让别人来集成我们。之后一个一个功能解锁,就可以用在更多的场景,类似特斯拉FSD的模式。这里面最重要的是积累的数据。对于 in-distribution learning(域内学习),一个非常重要的地方就是怎么把强化学习用好。一个结构化的产品或者一个落地的项目都算是比较确定的场景,强化学习在这种场景里面会比较 work。但是怎么把环境进行建模、提高强化学习数据利用的效率,这些都是未来非常关键的点。

嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“灵初智能陈源培:一个 00 后的机器人之梦”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!

微信打赏二维码 微信扫一扫

支付宝打赏二维码 支付宝扫一扫

版权: 转载请注明出处:https://www.ai-blog.cn/18010.html

下一篇:

已经没有下一篇了!

相关推荐

灵初智能陈源培:一个 00 后的机器人之梦: 上个月,福布斯发布 “30 Under 30 – Asia – AI (2025)”…

小智头像图片
175

云厂雪崩!AI工具全挂,网友:互联网凉凉?: 北京时间昨天晚上,在 X 上,有网友称 AWS、谷歌云、…

小智头像图片
40

SGLang 推理引擎的技术要点与部署实践: 作为开源社区近年来备受瞩目的推理引擎,SGLang 自发布以…

小智头像图片
140

硅基流动获数亿融资,打造生成式AI开发者平台: 硅基流动已完成数亿元人民币 A 轮融资。本轮融资由…

小智头像图片
105

美众议院指控宇树机器人预装后门 或遭实体清单限制: 6月12日,美国科技圈一则针对中国企业的指控…

小智头像图片
73

AI输入法日活超1.3亿!效率飙升,AI多领域渗透成趋势: 在当今数字化飞速发展的时代,AI技术正以前…

小智头像图片
44

Gemini 2.5 Pro占31%份额,OpenAI推新模型应对AI推理大战: 在全球AI推理能力的激烈竞争赛道上,近…

小智头像图片
81

快手Kling-2.0-Master崛起,三周占21%市场挑战巨头: 在AI视频生成领域,快手Kling-2.0-Master正成…

小智头像图片
106
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力原创内容

快速提升站内名气成为大牛

扫描二维码

手机访问本站

二维码
vip弹窗图片