非诚勿扰20100327:前嵨美步-这位“天才少年”野心勃勃,要垄断人形机器人的“大脑”?
如今的人形机器人,个个都“没头脑”。
对这些人形机器人的控制,依赖的是程序员“预先编好的程序”,向机器人输入情况描述以及应对方式的规则,使其在相应情况下完成操作。
宇树科技创始人王兴兴在接受采访时,曾通俗地解释:“你能让他(人形机器人)倒立、空翻,或者做一些避障,这些都是针对固定任务做了专门的AI训练”,是单一功能的AI。
譬如,人形机器人上春晚舞台跳手绢舞这个复杂的任务场景,就可能是根据“预先编好的程序”进行的训练。
但是,一旦场景和任务稍微换一下,人形机器人的成功率就会暴跌。
就像在春晚表演完后,人形机器人离开舞台,就需要有人帮助“掐住脖子”。面对刘谦的握手邀请,人形机器人竟突然下跪瘫倒。

截图于刘谦发布的春晚花絮
甚至于,控制人形机器人,有时还需要工作人员通过遥控器来操作。
某种程度上,这些人形机器人就是一个个提线木偶、遥控玩具,称不上“人”,因为它们“没头脑”。
这也是人形机器人很难快速量产的原因,没有消费者愿意为一个不够聪明的人形机器人买单。“笨蛋”人形机器人,又能如何应对我们的物理世界千变万化的情况?
至于人形机器人“笨”的原因,王兴兴坦言“如今泛用性的AI还是不太够。”他表示,全球都在等待真正的机器人“大脑”的诞生。
人形机器人“大脑”研发,无疑是一个很有意思的赛道。
彭志辉就对这个赛道十分感兴趣。

彭志辉,图源:“稚辉君”微博
作为曾经的华为“天才少年”,彭志辉年薪一度高达200万元。他离职创业,自然不同于一般的创业者。
他有着更高追求,其创立的智元公司没跟随同行、将重心放在机器人躯体上,而是放在机器人“大脑”上。
近期,智元公司发布了首个通用具身基座模型——智元启元大模型Genie Operator-1(GO-1),标志着国内机器人从单一功能向多场景泛化的技术突破。
GO-1看似回答了王兴兴的“泛用性的AI还是不太够”的问题,但距真正的机器人“大脑”还有一段距离。
而彭志辉与智元机器人的“野心”:希望未来所有机器人都能共享同一个“大脑”——GO-1,或无法实现。
并非“首家”
人形机器人从来都不是新鲜事物。
过去几十年,世界各地都有各种人形机器人研发出来。文艺作品也不停地演绎着人形机器人的“无所不能”,人们对这一形象十分熟悉。
但《刃辛机器人》了解到,我们生活生产中却很少有人形机器人的应用。
如今零星“进厂打工”的,并非人形机器人,多为机械臂等各种形态的工业机器人,而且从事都是重复性、机械性的工作。
截至目前,人形机器人“炫耀性”作用远大于实际作用。
王兴兴创办宇视科技之初,就没有直接研发人形机器人,而是从双足的机器狗产品开始。他在2009年就尝试过做人形机器人,认为太复杂了,无法驾驭。
直到AI大模型的出现,为人形机器人带来了新的想象力。
简单来讲,借助大模型,将语义理解能力和推理生成能力引入其中,就相当于给人形机器人装上了“大脑”,能够理解世界和人类,真正地为人类服务。
但,这仅仅存在于“想象”阶段,如王兴兴所言,如今泛用性AI还不够,即用于人形机器人的具身智能大模型并不成熟。
ChatGPT、Deepseek等AI大模型,是无法直接用到人形机器人上,为其充当“大脑”的。人形机器人要通往AGI,需要专门针对具身智能领域的多模态大模型 —— 具身智能大模型,来提升机器人在感知、决策、控制、交互等方面的能力。
具身智能大模型是基于AI技术打造,专门赋能人形机器人,帮助人形机器人实现在通用应用场景下的落的专用大模型。
ChatGPT、Deepseek等非具身智能大模型服务的对象是人类,输出的内容是给人看或者给人读,更多还是在人机交互、内容生成等方面展现价值。
具身智能大模型的服务对象是机器,其输出的内容是需要机器人能够理解,并最终要转化为具体可执行动作的控制指令,从而与周围环境进行交互,并做出各种动作。
智元机器人推出的GO-1,绝非国内第一个具身智能大模型。在此之前,国内一些机器人初创企业已经开始推出自己的具身智能大模型。
譬如,有鹿机器人的Master 2000、若愚科技的九天大模型、千诀科技的千诀.机器人大模型、穹彻智能的Noematrix Brain、X square(自变量机器人)的Great Wall系列的WALL-A模型以及千寻智能的具身智能大模型……
GO-1仅仅是国内首个通用具身基座模型。
所谓通用具身基座模型,采用模块化架构(如ViLLA框架),整合多模态大模型(VLM)、隐式规划器和动作专家,支持跨本体适配和任务泛化,其重要的特点是泛用性。
简而言之,GO-1是“啥都能干,但都不精”。
就像一个厨子,能看菜谱学做菜(看人类视频学习),今天炒川菜、明天做西餐(适配不同场景),甚至能用新买的厨具(跨本体硬件)。虽然做每道菜不是最顶尖的,但换菜单时不用重新买机器人(降低成本)。
陷“数据荒”
GO-1距离真正的人形机器人“大脑”有多远?
首先,不可否认GO-1具有充当人形机器人“大脑”的潜力。
GO-1通过ViLLA架构实现多模态学习,可利用人类视频数据提升小样本泛化能力,支持机器人从单一任务到开放场景的灵活切换。
例如,GO-1支持的智元机器人灵犀X2已能完成骑单车、缝葡萄等复杂任务,并初步具备自然语言交互能力。
这表明GO-1具备整合感知、决策和执行能力,符合“大脑”的核心需求。
GO-1还突破了传统预设程序的限制,可结合语义推理执行动态指令。
例如,灵犀X2能通过自然语言指令完成充电协作、家务辅助等任务,体现了从“工具”到“智能体”的转变。
其二,GO-1距离真正的人形机器人“大脑”还很远。从智元公司对这一大模型的训练过程,就可以得出这一结论。
当初,智元公司决定构建人形机器人“大脑”之后,就发现门槛太高。
众所周知,大模型的训练是需要大量的数据投喂的。
ChatGPT、Deepseek等非具身智能大模型,在训练过程“吃”下去的数据可谓不计其数。单就ChatGPT,就已消化了全球互联网2/3的文本语料。
人形机器人“大脑”所需“投喂”的数据,更多的是动作数据,因为它们是需要像人一样进行各种动作。
文本语料从互联网中就可以获得,但动作数据却非常难找。
智元公司曾试图寻找行业内的开源数据库,但发现高质量、统一格式的数据几乎不存在。
行业内虽然开源了百万条由真实机器人收集的训练数据集,但是这些数据实际上由不同公司、不同型号规格的机器人采集,数据质量较低,达不到智元公司的要求。
智元公司决定“笨鸟先飞”,采取“笨办法”,于2023年9月建立了动作数据采集工厂。在工厂里一比一地模仿人类生活中的每一个动作,将其采集下来,形成数据,然后“喂”给大模型。
为此,他们搭建了家居、餐饮、商超、办公和工业等五类应用场景中。
在不同场景中,数据采集员们手持设备,手把手地控制人形机器人完成抓、握、放等动作。有时采集员头戴VR设备,精准地让机器人模仿学习人类动作。
譬如,在卧室中,人形机器人乖巧地跟着采集员学习叠衣服。在餐桌前,机器人学着把餐具挨个摆放整齐,还要学会打餐各式菜肴,并且不会手抖。在商超收银台前,机器人一只手拿扫码器,另一只手拿着商品扫码。

采集“收银”机器人的数据,图源:36氪
人形机器人每完成一个动作,就能采集一套数据。这些数据聚集起来,上传至云端,便被智元团队喂给大模型,从而让机器人真正掌握一项技能,比如冲咖啡、熨衣服等。
笨鸟先飞,谈何容易?
仅一个倒水的动作,大模型就需要“吃”下上万条数据才能学会。而据36氪前几个月的报道,一位采集员每天仅采集约150条数据,工厂里的近百台机器人日均采集条数据也才3至5万条。
虽然仅仅几个月,智元公司就积累了涉及217个任务的百万条高质量标准动作轨迹数据,规模全球最大。但是,这些动作数据,与ChatGPT“吃”下的全球互联网2/3的文本语料的数量级相比,可谓少得可怜。
靠这些“少的可怜”的动作数据,GO-1这样的具身智能大模型又何时能够达到ChatGPT的聪明程度呢?
野心难实现
AI大语言模型,如ChatGPT,之所以表现得聪明,是因为在不断“喂”其数据进行训练后,量变引发质变,使其在某个时间点,突然出现的、难以预测的、超越了模型初始设计和预期的智能行为或能力,即“智能涌现”现象。
业内称此为尺度定律。即,随着模型参数、训练数据量和计算资源的指数级增长,模型的性能会以可预测的幂律(Power Law)方式提升,甚至在某些任务中表现出“涌现”的智能能力。
具身智能大模型需要获得ChatGPT这样的聪明度,必须不断“喂”动作数据。只要“喂”得足够多,到某一天,具身智能大模型就会突然变得聪明起来,真的像真人“大脑”一样了。
具身智能大模型需要“喂”多少数据,才能像真人“大脑”呢?
智元公司采取的采集动作数据的“笨办法”,堪称龟速。业内人士坦言:“如果只靠我们一个工厂采集数据,采集1亿条需要几百年。”
目前,全球机器人动作数据相较于大语言模型的“核爆点”还差3-4个数量级。
智元公司目前想出的新对策,就是联合同行一起采集数据。
智元公司首先对自己采集的数据开源,“不担心因为别人拿走一些数据而被超越,另一方面也是希望有更多人成为同道中人。”大家一起采集数据。
GO-1的发布,就是为了解决数据不够的问题。但是,这也隐藏了智元公司,以及其创始人彭志辉的一个野心,那就是“希望未来所有机器人都能共享同一个‘大脑’”,而这个大脑就是GO-1。
因为GO-1的一大特点是泛化性好,能在不同机器人本体上部署。大家一起采集的数据,可以通过GO-1这一通用具身基座模型共享。
GO-1作为首个通用具身基座模型,有着唯一性,若相关人形机器人公司没有专用的具身智能模型,倒是可以共享数据。但是,如今很多人形机器人公司都有各自的具身智能模型,都在进行数据“投喂”,进行艰苦训练,为何要与GO-1共享数据?
GO-1要变“聪明”,所需数据可不少。智元公司到底联合多少家公司一起采集数据,才能符合尺度定律,达到人形机器人“智能涌现”时刻呢?
仅靠几家公司,显然不行。哪怕联合所有研发机器人“大脑”的公司,恐怕都不够。
结语:或可借鉴自动驾驶训练模式
国内的智能新能源汽车发展迅速,L3级自动驾驶汽车开始量产。
汽车能进行自动驾驶,也经过了大量相关数据“投喂”和训练。仅仅在物理世界采集汽车行驶路测所需的数据,费时费力,而且无法完成。
据美国兰德公司研究,自动驾驶汽车要保证绝对安全,需要110亿英里(177亿公里)的里程测试。假设由100辆车组成车队,每年365天每天24小时不间歇以28英里每小时的平均速度进行测试,大概需要500年。
在激烈竞争中“存活”下来的车企,不可能采取这样的“笨办法”。它们的做法是仿真训练,即通过数学建模的方式将自动驾驶实际的应用场景进行数字化还原,建立尽可能接近真实世界的系统模型,从而进行训练。
仿真训练的速度是物理世界路测的千倍、万倍,这才使得自动驾驶发展如此迅速。
《刃辛机器人》认为,人形机器人的具身智能大模型,也可借助仿真训练,更快地达到“智能涌现”时刻。
只是,相较于自动驾驶只需模拟道路及周边环境等,具身智能大模型需要的仿真训练设计场景则多得多,复杂得多。(文/刃辛机器人 陈重山)
参考资料
[1] 《加紧建厂拼量产,上海具身智能“独角兽”为何强推这条路》,上观、文汇报,沈湫莎
[2] 《我们去看了智元机器人的“数采厂”,等等!这不是星球大战片场吗?》,36氪、智能涌现,田哲
[3] 《自动驾驶究竟需要什么样的仿真?》,智车科技官方