伯克利罗剑岚：机器人的范式革命，藏在真实世界中伯克利机器人专业

更新时间：2025-05-20 01:02作者：佚名

作者|赖·旺Xin

编辑| Chen Caixian

最近，伯克利大学的谢尔盖·莱文团队（Sergey Levine Team）发表了一项重要的工作，以加强学*方向——hil-serl，这在具体智能领域引起了广泛的讨论和关注。

根据实验结果，基于强化学*框架HIL-SERL，研究人员可以直接在现实世界中训练基于视觉的通用机器人操作策略。其中，经过1到2.5个小时的培训，机器人可以完成操作任务，例如主板，仪表板和正时带组件。

此外，机器人完成所有任务的成功率高达100！

这些任务包括组装家具，油炸鸡蛋，鞭打构件，插入USB闪存驱动器等。即使在人类干扰下，机器人仍然可以稳定而灵活地完成任务。

以前，行业内部人士始终批评强化学*（RL）能够改善模拟环境中的算法性能，并且无法解决现实世界中真正机器人的问题。但是，SERL系列的工作证明了Real Machine RL并不是如今的幻想——，而且增强学*不仅可以在现实世界中应用，而且还可以在准确和敏捷的操作任务中具有出色的成绩，远远超出了模仿学*方法，而且BEAT计数的平均值也更快1.8倍。

换句话说，SERL是房地机RL机器人技术领域中的一项遍布的作品。这项工作的核心作者是中国科学家，伯克利的博士后研究员卢·江兰（Lu Jianlan）。

罗江

在今年年初，Lu Jianlan的团队提出了一个有效的机器人增强套件Serl。机器人可以在20分钟内学*组装电路板，成功率也为100。

Hil-serl是基于SERL的升级版本。但区别在于，希尔·塞尔（Hil-Serl）将人类的示范和纠正结合在一起，以训练加强学*策略，而塞尔（Serl）仅依靠人类的示威。

加入人类以纠正这种微小差异对于获得从错误中学*并提高绩效的策略至关重要，尤其是对于需要从头开始的代理商需要学*的任务。此外，HIL-SERL专注于相对困难的任务，还解决了双臂协调或动态操作的问题。

项目链接：https://hil-serl.github.io/

希尔·塞尔（Hil-serl）的效果也超出了吕江（Lu Jianlan）和他的导师谢尔盖·莱文（Sergey Levine）。看到结果后，谢尔盖说，他对罗江说的第一件事是：“您真的使RL工作。” （您确实进行了加强学*的运行。）

在不久前AI技术评论发布的第《伯克利具身智能图谱》条中，我们简要介绍了Luo Jianlan的故事，该故事研究了伯克利的强化学*与机器人的结合。回顾过去，Luo Jianlan在机器人Real Machine RL方向“固执”已有近十年了。

2015年，Lu Jianlan去了伯克利机械工程系学*博士学位。在机器人控制中，同时还开始探索机器人技术+AI，并在Pieter Abbeel的指导下攻读计算机科学硕士学位。在他的博士学位论文的辩护中，彼得也是他的博士防御委员会联席主席。

在强化学*中，模拟器是必不可少的部分。实验测试的得分越高，在模拟环境中会导致算法效应越好。但是与此同时，如何将强化学*到现实世界中也是机器人领域的一个未解决的问题。毕竟，无论Mujoco的物理模拟多么精确，它都不是真正的物理世界。

因此，自Bo er首次强化学*工作以来，Lu Jianlan一直在研究如何在现实世界中实施强化学*。其中，关于加强学*的研究已经从阿尔当山峰变成了越来越不受欢迎的人，甚至受到该行业的批评。但是，Lu Jianlan一直认为，真正的机器人是一个长期的主张，一旦克服，它将在机器人学*的突破中产生类似范式的变化。

在2020年从博士学位毕业后，Lu Jianlan加入了Google并从事DeepMind，Devery Devery Obot和Google X的工作，从而了解了有关机器人系统知识的更多信息，从基础动力学到上层控制。同时，他一直坚持探索机器人和增强学*的结合。

2022年，当他参加的项目孵化到工业机器人创业公司的内在培训中，Luo Jianlan返回伯克利，并成为Sergey Levine团队的博士后研究员。他是谢尔盖小组中最坚定的RL研究人员。多年来，对塞尔（Serl）系列作品的探索也是卢江（Luo Jianlan）在伯克利（Berkeley）对真实机器RL的探索中取得的最突出的成就。

以下是AI技术评论和Lu Jianlan之间的对话。

返回学者

AI技术评论：您在伯克利机械部门学*博士学位。您是如何首先与深入的增强学*接触的？

Lu Jianlan：机械系统有很多东西。我朝着控制方向。最早的控制论和强化学*是双重存在。例如，控制中的HJB方程和增强学*中的Bellman备份是具有相同原理的动态编程方法。因此，这种切换可以使我对如何在两个领域解决问题有不同的看法。

在2017年暑假期间，我参加了西门子伯克利分公司的工作，将深入的强化学*应用于工业生产，并学*策略来解决传统机器人无法解决的问题，例如高精度组装。

当时的任务是操作3D打印的齿轮并将其安装在可移动的机械设备上，要求设计的算法不仅能够计划，而且还需要实时响应外部变化并制定策略以成功完成组件。这个项目是我在加强学*领域的起点，也是我与Pieter Abbeel和Sergey Levine合作的开始。

AI技术评论：从博士学位毕业后，您在Google工作了两年。您为什么决定返回学术界并学*Sergey Levine小组的博士后研究员？

Lu Jianlan：实际上，这是一个相当偶然的决定。

在Google期间，Stefan Schaal允许我积累大量的硬核机器人知识，我真的可以理解从基础动力学到上层控制的整个机器人系统。当时，我参加的项目专注于在工业生产中使用AI并提高生产率。在将项目作为一个内在的工业机器人中孵化后，我考虑回到中国寻找教师工作，并计划成为博士后研究员一年作为过渡，所以我问Sergey，他还在当时在Google兼职。

谢尔盖花了数十个小时来训练一个机器人完成简单操作。通过我们的合作，我的工作在工业精确任务（例如堵塞和拔掉）的工业精确任务中取得了100的成功率，只花了很短的时间才意识到团队中的某人必须了解机器人系统并学*结合两者。他热情地建议我在他的小组中担任博士后研究员两年。由于我们的能力相对互补，我们以前的合作非常愉快，所以我同意。

AI技术评论：返回伯克利后，您参与了开放X-embodiment数据集的创建。

罗江：没错，早在2023年3月，X-Embodiment是一个小型勘探项目，该项目不到10名，主要与伯克利，斯坦福大学和Google合作。我负责最重要的电缆任务，电缆路由。在发现它更可行之后，我决定扩大规模。由于以前的机器人数据集非常分散，因此我们想引入行业中的学术和工业力量，因此我们向所有数据集作者发送了电子邮件，最终的合作者达到了200多个。

AI技术评论：在最新的HIL-SERL之前，您于2月首次发布Serl。您能谈谈这个想法是如何诞生的吗？

Lu Jianlan：为了使强化学*真正有用，我们必须确保所有链接和选择都正确并放置在正确的位置。因此，尽管AI社区希望使用强化学*来解决实际任务，但其阈值很高，该过程容易出现错误和不稳定，并且总是很难克服。许多人使用强化学*放弃了在现实世界中训练策略。

因此，在2023年初，我有一个想法，可以为社区提供开源，端到端的解决方案，包括增强学*环境和机器人控制器，这使每个人都可以直接下载并直接使用它，就像使用模拟器训练机器人狗走路一样简单。

我以前在Google上的工作实际上涉及强化学*的现实应用，例如我在2022年与Sergey的合作以及我在DeepMind参与的项目。在过去的研究的预览下，我开始带领团队于2023年6月进行SERL，并与斯坦福大学，华盛顿大学，Google等多个机构合作，以进一步改善了先前的工作。

Serl首次能够获得现实世界的视觉信息，并且需要20分钟才能完成精确组装并学*策略。在复杂的任务中，例如PCB板组件，电缆路由和对象重新定位，每种策略平均接受25至50分钟的训练，任务的成功率接近完美，即使受到干扰，也表现出极好的鲁棒性，并表现出紧急恢复和校正行为。

整个研究进度过程是一个真正的科学探索。在我们的实验中，我们发现有一个或两个非常关键的选择可以使整个系统运行良好。当时我们也被惊呆了。在今年年初发布SERL之后，国内外的许多机构也开始使用它，例如北京大学，波士顿动力学AI研究所，Google等。

纸张链接：https://arxiv.org/pdf/2401.16013

现实世界倡导

AI技术评论：听起来您是现实世界和真实数据的坚定倡导者？

罗江：没错，回到我2017年第一次与强化学*接触，每个人的研究都在模拟中。进行增强学*实验，刷排名，在穆约科科模拟环境中发表论文是一个普遍的操作。但是我认为，强化学*的算法性能列表不能解决实际问题，并且实际上与现实世界中的机器人控制问题脱节。实际上，增强学*的抽样效率一直是一个问题，到目前为止，没有人在真正的机器人上使用它。

当然，模拟对于运动非常有效，但这不是魔术。模拟是由人根据物理模型编写的。实际上，它正在进行基于模型的控制，但是模拟提供了更好的计算工具。

移动是一个相对简单的问题，模型相对简单。四足狗是桌子模型，两英尺是倒置的摆。挑战是该模型不准确。狗掉下来，或者外部干扰略大且滑倒，但是这些不确定性相对有限。这些问题也可以通过传统的MPC（基于模型的控制）和稳健的控制来很好地解决。例如，如果存在不确定性的定量估计值，我们可以针对这种有限的不确定性设计强大的控制器。

根据此原则，今天的波音乘客飞机设计控制器。它们可以维持飞机重量的有效变化，高空气流的变化等。由燃料量变化引起的。这也是民航客机可以安全运行的保证，我们可以充满信心地坐在它们上。因此，基于模型的控制非常有效，但是对工程功能的进入阈值和要求太高。刚起步的研究人员通常不愿意为此努力。

在运行中，可以肯定的是本体的模型。如果让机器人臂向左移动，它一定会向左移动。真正的困难在于外部环境的无尽变化以及难以计算的复杂物理，例如物理接触和柔性对象，需要处理的复杂性几乎是无限的。

因此，需要在真实环境中进行培训。尽管现在有一些成功的深度学*模拟系统，但是如果您构建模拟器，则从它们中学到的策略不能超过模拟器本身的功能。最终，您的模拟器将限制您的策略学*。我们不能认为它将仅仅因为使用模拟器来解决一个相对简单的问题，这样就可以解决另一个更困难的问题，这样我们就不会解决这个困难问题的本质，而是陷入了“鞍点”并绕行绕行来构建这个困难问题的近似值来尝试解决这个问题。从长远来看，找到全局最佳解决方案的能力将丢失。

在仿真环境和现实世界中的操作存在显着差异，尤其是在涉及视觉输入的情况下。因此，我的研究一直集中在如何以较高的样品效率设计算法上，并且必须与硬件和控制器正确连接。例如，借助视觉信息，可以在20分钟内在其他方法无法解决的20分钟内学*一个非常复杂的策略。

Sergey还是现实数据的坚定支持者。一旦我们在远足时聊天，谈论100亿美元，我们会建立世界上最大，最佳的仿真器，还是收集世界上最大的数据集？我们的答案非常一致，这是数据集。

AI技术评论：您似乎已经很早就开始研究了在现实世界中的增强学*的应用。

Lu Jianlan：是的，我对真正的机器人非常感兴趣。在解决与西门子合作的项目中的问题时，我试图在现实世界中使用强化学*，但是当时无法处理强化学*。它不起作用，我只是想弄清楚，所以自2017年以来，我一直在研究这条主线，花了很长时间，但是我似乎并没有发现任何人比我更快，因为许多人在不工作的情况下放弃了一次或两次。

许多人以前认为，在现实世界中应用强化学*不是一个好方法，因为机器人需要在算法和硬件和控制器之间进行出色的对接，以使整个系统运行良好。在HIL-SERL中，我们的系统可以在1-2小时内使用视觉输入来实现一系列工业生产，动态操作和灵巧操作任务的100成功率。

现在使用仿真的要点之一是，很难获得机器人的真实数据。仿真可以立即生成100亿个数据，但是没有人会反对如果有真实数据，最有用的是真实数据。但这不是问题的本质。十年后，我们在现实世界中部署了1亿个机器人，不断分享真正的物理经验。然后，让我们看一下当前的困境。许多问题将不存在，许多观点将变得无关紧要。

现有的数据量和部署的机器人不足以使我们得出精确的科学结论，因此有数百个思想流派争夺。更不用说距离是第一个向工厂部署1,000个人形机器人的人，24x7寄回的数据足以给出我们新的范式和科学结论。我们从这些半封闭的空间问题开始。一旦我们对问题有了更深入的了解，我们就进一步扩展了无约束空间问题的方法。

作为科学家，我们应该专注于进一步的未来，例如五到十年内的技术发展，并且需要解决一些基本的科学问题并探索现在无法实现的事情，但可能会对未来产生重大影响。

强化学*以体现智力

AI技术评论：大型模型的诞生似乎已经冷却了机器人学*领域的强化学*热潮。

Lu Jianlan：如果2016 - 2021年的主线是由伯克利领导的强化学*，然后在2021年，随着大型模型的兴起，数据收集和大型模型的结合已成为一种新趋势，例如Google的RTX系列。当前的趋势是，大型模型将继续流行，加强学*将恢复强劲。大型模型结合在一起，将实现初步的50-60策略，然后使用加强学*算法逐渐将其提高到100。

尽管我也做了很大的模型，但我认为我的代表工作和研究重点是增强学*，因为Hil-serl的当前成功率为100，周期时间较短。

如果仅限于大型模型，无论他们如何收集数据，人类和机器人之间的观察结果仍然存在差异。人类有记忆，大脑和思维，并且在模仿人类行为时，机器人必然会存在缺陷。从理论上讲，机器人行为无法实现人类的100完美复制。那么如何接近？这需要加强学*，例如让机器人尝试和犯像人类这样的错误来学*骑自行车。观看电视或父母教学很有用，但是要真正掌握技能，您必须尝试自己体验失败。

我预测，在这些初创公司大规模使用模仿学*之后，他们尝试了痛点并知道痛点后，他们将使用加强学*来优化成功率，节拍计数和某些鲁棒性。

AI技术评论：那么，您如何看待在机器人学*或体现智能中增强学*的作用？

Lu Jianlan：在机器人学*中，机器人还必须与环境互动，从环境中获得反馈，然后根据这些反馈调整策略，以获得更高的成功率。这是一个基本的逻辑问题。与大型模型不同，物理世界中的机器人学*是一个复杂的系统，涉及多维和高维数据，这很难简单地实施，但是一旦成功，它就会超越人类并成为超级系统。

例如，人类需要在10秒内完成的任务，并且机器人可以在5秒内通过多步推理完成它。这是一个非常强大的工具，我们仍在探索如何有效使用它。但是可以肯定的是，它将是体现智能的组成部分。有趣的是，当与机器人领域的专家进行沟通时，他们会更加关注基本模型完成现实生活任务的成功率，而50-60的人将使他们失去利息，但是当他们得知我们可以获得100的成就时，他们会对我们的业绩感到好奇。

里奇·萨顿（Rich Sutton）的痛苦教训说，历史告诉我们，学*和搜索是两种无限扩展的方法。模仿学*可以告诉我们如何从数据中找到功能，但是如果没有搜索或优化（RL），它不能超越数据的局限性，从而以新的方式解决新问题。

中国的优势：高质量，低价

AI技术评论：您如何看待体现智能的趋势变得越来越流行？中国的优势是什么？

罗江：我没想到具体的情报以前会很受欢迎。我们甚至开玩笑说机器人学*是一个自私的小圈子。这么多年来，我觉得自己是主流。

我高度认识到国内供应链的优势。实际上，许多机器人都卡在硬件上。完成硬件后，软件可能会容易得多。硬件和软件需要一起迭代，而不是在糟糕的硬件上开发算法。

当我们提到“成本绩效比率”一词时，我们总是在潜意识中认为，这意味着“单置替代品”的质量更加糟糕，但是现在，中国在全球工业链和供应链中的作用不仅是为了降低成本。例如，波士顿Dynamics的机器人狗产品的价格为50,000美元，以前没人破产，但Yushu成功了，而不是以低质量的方式。

作为一个拥有完整工业连锁店的工业国家，中国正在重新定义其产品价值和定价系统。它的目标不是生产廉价产品，而是通过整个工业连锁店的优势重新教育和定义市场并建立自己的定价能力。

AI技术评论：您可以分享您的下一个计划吗？

罗江：实际上，当我出国时，我想回中国，而且我从未想过要长期留在海外。即使您需要长时间坐在板凳上，从长远来看，它也具有很高的价值。生活很短，只有少数机会实现重大突破。如果您错过了，至少您已经努力工作。

我认为，如果突破性的原始研究可以真正地转化为实际应用，它将创造更大的社会价值。伯克利和斯坦福大学的成功不能与硅谷周围的企业家生态学分开。机器人是一门与该行业紧密融合的实践科学，可以将科学研究结果从1到100扩大并实现工业化。在这方面，我最欣赏的人是李Zexiang先生。他共同创立的DJI不仅是一家价值数十亿美元的公司，而且更重要的是，在2009-10期间证明，来自中国的硬技术创新可以成功，这完全改变了中国科学和技术的历史，而且这种意义远大于其经济价值。

Khosla Venture的创始人Vinod Khosla曾经说过，创新永远不会发生在系统的核心上，它总是发生在系统的边缘（“创新永远不会发生在系统的核心处，它总是发生在边缘\’）。系统的核心是该系统的既上利益，并没有足够的动机来努力，当时有一个良好的动机，可以自发地求助，而这是一定的范围。失败并继续尝试，如果不确定，成功的概率将变得更大。

似乎没有一家大型公司领导的科学和技术革命，该公司的市场价值为数万亿，而科学家将要退休时很少有主要的科学发现。王陶（Wang Tao）开始生意时，他挤进了深圳超过十平方米的小平房。从今天的话来说，没有资源，因此DJI的成功将激发中国的年轻人创造100和1,000 DJI。

接下来，我将专注于通用高性能机器人，尤其是在工业生产领域。尽管目前汽车制造商的自动化水平很高，但实际上需要手动完成很多工作，因为当今的机器人无法灵活处理更改任务。诸如增强学*之类的技术将很快应用于这些领域，从而改变现有的生产模型。例如，特斯拉和富士康等公司已开始使用机器人臂进行灵活的生产来适应不断变化的生产需求。生产模型的这种转变正在全球进行，这不仅提高了生产效率，还可以解放人类的创造力。

我认为全球制造业的产出价值很高，但是自动化的比例仍然很低。如果通过机器人技术可以提高自动化水平，它不仅会降低人工成本，而且还会释放人类的生产力，从而为人类提供更多探索和创新的机会。这种变化反映在一些高级工厂中。例如，现代在新加坡的新工厂采用了更灵活的生产单元模型，取代了传统的生产线，从而使生产更加灵活和高效。

有关具体情报领域的更多令人兴奋的故事，请添加Leifeng.com的作者微信Anna042023进行交流。 leifeng.com

上一篇：美国在1959年之前的州数目是多少？

下一篇：高薪就业保障，加州伯克利开设电气与计算机工程专业（加州伯克利计算机怎么样）

美国留学