2024年,虽然大模型掀起的“具身智能”创业潮还没多久,但在「智能涌现」访谈过数十家机器人公司后,我们发现一条圈子里的“鄙视链”。
“搞软件的,鄙视搞硬件的,搞大模型的,看不起强化学习的”,多位行业人士给出了类似的观察。
认知的不同,决定了机器人创业者的入局姿势。
英诺天使基金合伙人王晟向智能涌现表示,国内涌现出的几百家机器人创业公司中,大概有三类基因:
一是原来机器人出身的创始团队,更关注机器人硬件能力,主要围绕控制和电机。本体派的核心是机器人本体(人形/四足狗),其次是机器人的臂或关节。
二是软件背景的团队,更关注机器人的智能化和泛化能力,但“软”还可以进一步细分:
一批是上一波AI热潮中的创业者,转型至机器人领域,比如CV、强化学习;另一批则是真正大模型背景的玩家,这波人更少,处于鄙视链顶端。
"看不上国内那些搞硬件的公司。”一家具身智能大脑公司创始人对智能涌现直言。在他看来,软件才是机器人发展的卡点,但目前硬件公司在AI软件上的预算太低,“只是简单接接国外开源的大模型”。
宇树科技是典型的“硬件派”,其创始人王兴兴曾在一次公开采访中回应过这一点——他们对于AI的投入很克制,因为太烧钱了,“机器人才是我们的立身之本”,他甚至直言,“欢迎客户用我们的硬件,哪怕把我们的软件全删了”。
一位机器人硬件公司人士无奈表示,目前机器人在“软”的方面还没收拢共识——行业存在太多的技术范式和路线,大脑和小脑的边界是什么?具身智能到底怎么做?目前行业还很混乱,留有很多问号。
宇树 Unitree G1
而“软硬之争”的结果是,国内大部分硬件公司,还在用传统的硬件思维来做机器人,对于“脑”的运用只是蜻蜓点水;而大部分做“脑”的公司,则选择自己从头开始做一个硬件。
各自为政,行业呈现出一种隐约的割裂状态。
大模型,还没办法“赋能”机器人
“现在搞硬件的公司,就是视频拍摄公司!”多位投资人、行业人士向智能涌现表示。
今年以来,许多机器人厂商在demo里展示的场景足够酷炫:比如机器人可以在汽车工厂搬东西,帮忙分拣货架商品,给人一种AGI时代机器人照进现实的感觉。
但实际情况却并非如此。
一个完美demo的幕后往往是:若拍摄一个机器人从抽屉里抓水杯的场景,比如训练的时候是早晨,到拍摄的时候天黑了;或者训练时抽屉里多摆了两个杯子、抽屉位置挪动了——这些细枝末节一改变,都可能导致机器人任务失败。
“有的demo,甚至一万次才成功一次,(视频里)不诚实的情况非常严重。”一位行业人士表示。
但你可能会疑惑,大模型在手机、电脑各类终端上已经足够智能,为何无法让机器人大脑变得更聪明?以至于让硬件公司们需要在“完美”demo上如此努力。
figure 02
据智能涌现了解,目前大部分硬件公司对大模型的理解和应用并不深入——基本只是简单接入国内外通用语言大模型。但实际上,大模型与机器人真正需要的”空间智能“,还有很远的距离。
多位行业人士向智能涌现表示,语言大模型的数据量越大,反而更容易产生“幻觉”,干扰任务执行。“语言大模型和机器人落地一点关系都没有,区域任务上的成功率,惨不忍睹!”
而前述具身智能大脑公司创始人表示,目前国内没有一个团队真正从机器人出发,去做适配具身智能的大模型。
此前,机器人行业的一项解决方法是,在多模态大模型和机器人身体之间,引入一个中间层“小脑”——它的作用是承上启下,存放多项“子任务”(比如把“让机器人冲咖啡”任务拆成“拿杯子-磨豆子-冲水”等多项子任务),供大脑调配,也让机器人身体能读懂并且动起来。
但新的难点又出现了。一方面,小脑的引入,意味着机器人厂商们需要在其中预设无穷无尽的子任务,若遇上复杂的任务,各个子任务还需要再进一步拆分。
另一方面,数据匮乏则是更艰巨的难题。目前,政府和一些公司已经投入大量资源进行集中训练,但多位行业人士表示,效果并不理想,因为大家既不清楚应该收集何种数据,也不知如何界定优质数据的标准。
以抓杯子的场景为例,理想状态下的高质量数据应该是,拿一个机械臂控制它从头到尾做一遍,告诉他——抓杯子要怎么抓,当任一场景变化了,又要怎么抓。但这也意味着,一个简单抓取的动作,就需要几千万条、甚至几亿的数据。
当大家怀揣着“大模型改变一切”的心态闯进机器人领域,才发现中间的gap远比想象的更大。
一场集体纠偏
从行业的角度来看,割裂的状态并不健康,而如今的投资人、产业玩家们,正在出现一场关于“纠偏”。
2024年下半年,机器人行业的投资风向隐秘出现变化。王晟告诉智能涌现,在2024年前,很多投资人粗浅认为,投机器人=投资人形机器人硬件。
在过去的一年半,人形机器人公司烈火烹油,估值飙升。据智能涌现了解,以宇树科技、智元机器人为例,两家炙手可热的机器人硬件厂商,近两年连续完成数轮融资后,估值双双迈过10亿美金大关,“贵到大家投不起”。