近日,关于 Open AI 被投企业 Physical Intelligence (PI) 的一系列报道,让人们关注到具身智能大模型引发的机器人时代变革。
目光转回国内,大家同样在中国企业中发现了这场变革浪潮的先行者。据机器之心了解,国内初创企业自变量机器人(X Square),是国内唯一一家从第一天就选择了端到端统一大模型技术路线的企业,与 PI 的技术路线不谋而合。这家企业正在训练的 Great Wall 操作大模型系列的 WALL-A 甚至从参数规模上已经超过了 PI。
王潜:面对机器人大模型这波潮流,很多团队可能因为「沉没成本」和「路径依赖」而止步不前。我自己是全球最早引入 Attention 机制的学者之一,在人工智能浪潮兴起的时候,我意识到纯 AI 在落地方面的天花板,所以我出国去搞机器人;在机器人方面,我研究过当时最前沿的 topic,因而非常了解许多技术路径的瓶颈和天花板,把该经历和纠结的都经历了;从 20 年左右自己就看得很清楚通用机器人这事做成只有统一大模型这一条路;所以大家从第一天开始团队的组建和技术的探索就是完全为这个方向设置的,包括大家的技术框架和方向从第一天开始就没有改过。
王昊:我觉得王潜在这里的作用是决定性的,我还真没见过这样既懂机器人又真懂大模型的人。我自己切身的感受是机器人这个领域门槛实在太高了,而懂机器人的人里又确实几乎没人有过 scaling up 的经验,即使像原来 谷歌 的那批人离开了大平台的基础设施支撑,能否做到以前的事情也是一个很大的问号。
原生的「Robotics Learning + 大模型」的创业组合,让 X Square 从第一天起就具备原始创新、对技术路径本质思考的基因。
机器之心:端到端和统一模型是唯一的路径吗?
王潜:首先说明下「端到端」。从 2016 年开始,我已经认定,端到端是解决 manipulation 问题唯一可行的路径,本质上是因为 manipulation 和所有其他 AI / 机器人任务都有本质的区别,即涉及到的物理过程的复杂性远远超过其他任务。这个特点决定了任何分层分步的方法都很难彻底解决这一问题,因为模型不是完美的,每分出一个步骤,都一定会引入不准确的中间结果,即不可控的噪声。
拿最常见的分层方法中的 3D 重建来说,经常出现很多毛刺空洞之类缺陷,有时缺陷很小,人肉眼看的时候都不太能注意得到,但在物理接触中,哪怕一点点的毛刺都会导致结果完全不同。这类问题在每个步骤中都会叠加,最后得到的东西完全不可控。另外,每一个步骤都会丢弃掉大量的信息,而往往在最后控制的时候这些信息反而是重要的。
王潜:确实,数据质量在 Scaling Law 里才是最核心的要素,其次是数据的多样性,排在最后的才是数据量。
当然也不是说数据量完全就不重要了,有些探讨 Scaling Law 的工作在每一个模型上只有几十条到几百条数据的结果,大家觉得意义似乎比较有限。真正给出机器人 Scaling Law 决定性证据的是 RT-X,因为它确实是在一个模型上放了几十万条数据。
大模型 + 机器人,路径走通了
机器之心:基于哪些背景,你们选择在 2023 年底成立这家企业?
王潜:通用机器人发展的主要瓶颈在于智能而非硬件。以往,学术界和工业界有过非常多次向通用机器人的冲击,每次大家都抱有很大的希翼,但后来都发现这个问题的困难程度远超过预期。在 AI 总体发展的过程中,大家逐渐发现莫拉维克悖论非常坚硬,机器人操作就是所有 AI 任务中最困难的一个,在 AI 本身有大的突破之前解决不太现实。
ChatGPT 从根本上改变了 AI 整个领域,对机器人来说有两个点:一是很多以前觉得极其困难的问题获得了突飞猛进的发展,例如 Planning、Reasoning、Language Interaction;二是从方法论上指明了解决机器人通用操作这一最核心问题的路线,一下子就看得很清楚了,对大家的说明成本一下子变得很低。
王昊:过去我一直做大模型,在长期的实践过程中,大家逐渐触碰到了一个本质困难:大语言模型对真实世界的幻觉始终难以消除。大语言模型就像一个生活在纯文本世界里的 「大脑」,它可以通过海量的文字习得常识,但始终缺乏最基础的物理认知和现实世界的直接互动,实际上 AI 也就难以获得真正的理解力和解决实际问题的能力。具身智能让 AI 能够通过感知和与真实环境交互来学习,这正是通往通用人工智能的关键路径。关于具身智能大模型的技术路线,很早之前我和王潜就开始了非常深度的探讨,也非常认同彼此的技术判断。