首页 > 生活感悟 > 免费教学 > 理想如何从智驾追随者成为领先者

理想如何从智驾追随者成为领先者

发布时间:2024-12-12 21:11:15来源: 15210273549

端到端自动驾驶有全局式(一段式)和分段式(两段式)两种,其中全局式端到端思路清晰,研发成本远低于分段式,无需任何人工标注数据集,依赖谷歌、META、阿里和OpenAI等开发的多模态大模型。站在这些科技巨人肩上,性能比分段式端到端要好不少,但部署成本极高。

分段式的感知阶段仍然使用传统的CNN骨干网提取特征,在路径规划阶段使用端到端,性能虽然不如全局式,但部署成本比全局式端到端要低。这里的部署成本低是相对的,与目前主流的传统BEV+OCC+决策树相比,分段式的部署成本还是很高的。

全局式端到端的代表:WAYMO的EMMA


图片来源:Waymo

全局式端到端的代表有Waymo的EMMA,直接输入视频,没有骨干网,核心就是多模态大模型。分段式端到端的代表有UniAD。

分段式端到端的典型代表:UniAD整体架构


图片来源:论文《Planning-oriented Autonomous Driving》

以能否得到反馈为标准,端到端自动驾驶的研究主要分为两类:一类是在模拟器比如CARLA中进行,规划的下一步指令可以被真实的执行;第二类主要是在已经采集的现实数据上进行端到端研究,主要是模仿学习,参考UniAD。端到端自动驾驶目前都是开环的,不能真正看到自己的预测指令执行后的效果。由于不能得到反馈,开环自动驾驶的测评很受限制,现在文献中常用的两种指标包括L2距离和碰撞率。

L2 距离:通过计算预测轨迹和真实轨迹之间的L2距离来判断预测轨迹的质量
Collision Rate碰撞率: 通过计算预测轨迹和其他物体发生碰撞的概率,来评价预测轨迹的安全性
端到端自动驾驶最吸引人之处是性能提升潜力大,最早的端到端是UniAD,这是2022年底的论文,L2距离高达1.03米,2023年底就大幅提升至0.55米,2024年底进一步升到0.22米。地平线是端到端领域最活跃的公司之一,其技术发展路径也显示出了端到端路线整体的演进路径。UniAD出来之后,地平线立刻提出理念与UniAD接近的VAD,性能远超UniAD。这之后地平线转向全局端到端,第一个成果是HE-Driver,参数量比较大,然后是最近的Senna,参数量有所缩小,也是目前性能最佳的端到端方案之一。

Senna模型


图片来源:《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

部分端到端系统的核心仍然是传统算法BEVFormer,BEVFormer默认使用了车辆CAN总线信息,这里面包含了与自车速度,加速度,转向角相关的信息,这些都是显性的,对路径规划影响很大。这些端到端系统仍然需要监督训练,大量的人工标注就不可缺少,这让数据成本很高,再有既然借鉴了GPT的理念,为何不直接用LLM?于是有了理想汽车的DriveVLM。

下图是理想DriveVLM的模型pipeline,主要包括场景描述、场景分析、层级规划三个主要模块设计。


图片来源:《DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》

DriveVLM场景描述模块的功能主要分为两部分——环境描述和关键物体识别。其中,环境描述主要是对共性的驾驶环境的描述,比如天气和道路状况等;关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。环境描述共包括以下四个部分:天气、时间、道路类型、车道线状况。

区别于传统自动驾驶感知模块将所有待检测物体都检出,DriveVLM 专注于识别当前驾驶场景中最有可能影响自车驾驶决策的物体,称之为关键物体,因为全部都检出会消耗天量算力。得益于理想汽车累积的海量自动驾驶数据的预训练以及开源的大模型,VLM相较传统3D目标检测器能够更好的检出长尾的关键物体,比如路面杂物或者非常见动物等。

对于每个关键物体,DriveVLM会分别输出其语义类别c和对应的2D目标框b。预训练来自NLP大模型领域,因为NLP用的标注数据很少,很昂贵,预训练首先利用海量的未标注数据训练,找到语言结构特征,然后再利用prompt做标签,微调来解决具体的下游任务。

DriveVLM彻底放弃了BEVFormer这种传统算法做核心,只用多模态大模型。理想汽车DriveVLM使用阿里Qwen-VL大模型,参数量高达97亿,输入清晰度选择448*448这种最低清晰度,用英伟达Orin做推理运算。

理想汽车如何从高端智驾追随者成为领先者?

2023年初,理想汽车在NOA大战中还是一个落后者,但2023年开始全力投入高阶自动驾驶研发后,2024年经过多次NOA版本升级,到2024年11月底率先推出车位到车位全场景自动驾驶,从而成为高阶智驾(NOA)量产的领先者。

回顾理想汽车端到端智驾的发展历程,除了自身数十万用户提供的数据支持外,还与多家合作伙伴开展端到端模型的研发合作。DriveVLM就是理想汽车和清华大学合作推出的。

除了上面提到的DriveVLM,理想汽车还与上海期智研究院、复旦大学等推出STR2,与极佳科技、中国科学院自动化研究所等单位提出DriveDreamer4D,与清华大学合作推出MoE方案等。

MoE混合专家架构
为了解决大模型参数太多,计算量太大的弊病,理想汽车与清华大学合作,采用了MoE即混合专家架构。混合专家(Mixture of Experts,简称MoE)是一种集成学习方法,它通过将多个专业化的子模型(即“专家”)组合起来,形成一个整体模型。每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的,是一个称为“门控网络”的机制。每个专家模型可以专注于解决特定的子问题,而整体模型则能够在复杂的任务中获得更好的性能。混合专家方法适用于处理大规模数据集,能够有效地应对数据量巨大和特征复杂的挑战。这是因为它可以并行处理不同的子任务,充分利用计算资源,提高模型的训练和推理效率。

免费教学更多>>

8万级SUV新标杆,续航510km,全方位解析五菱缤果SUV的硬核实力 哪一款mini迷你剃须刀好用?迷你剃须刀品牌排名前五名精准种草 值得推荐的家用轿车-奇瑞艾瑞泽8 合资销量增幅第一,新起亚取胜价值战 试驾东风奕派eπ008:空间不止大一点游刃有余的体验信手拈来 8万级SUV新标杆,续航510km,全方位解析五菱缤果SUV的硬核实力 长安优势行业混合增聘肖洁 成立近2年半亏损3成 长安放出杀手锏,近5米7座SUV仅16万起,2.0T+8AT带四驱,真香 哈弗H6:焕新升级,你心动了吗? 本田 CR-V 将于今年进行改款,将增加 Trailsport 车型 本田版“北斗星”实车曝光,侧滑门配高车顶设计,取名N-BOX 天籁既视感?深度解析“居家神器”2023款全新日产轩逸 暴力测试丰田海拉克斯,真的是“不死之鸟”吗? 丰田新皇冠迎来大爆发,两厢运动版车型或不足25W 年底“价格战”进入白热化!宝马3系跌至22万起,家用能入手吗? 德系三强争霸:奔驰、宝马、奥迪谁才是真正的老大? 奥迪A4L:我都降到19万了,全系2.0T,为何你们还看宝马3系? 零跑C11:纯电续航580km,实力可抗衡Model Y吗? 蔚来 ET9:汽车界的 “六边形战士” 10万级纯电车怎么选?广汽埃安AION UT,试驾感受如何? 东风本田汽车有限公司、广汽本田汽车有限公司召回部分国产及进口汽车 特斯拉焕新Model Y实车来了 中国产业链助力其首发亮相 这些新变化符合你的期待吗?|一探 中国首款足球人形机器人亮相,关键技术国产替代加速 摇发财树、抢年货、过东北大年,快手打造年味消费新体验 9.9包邮时代:电商平台下小商家的困境,赚钱的生意基本没有了 快手电商发布2024体验报告:以创新举措推动消费体验升级与商家成长 多个品类增长超50%,淘宝天猫秋冬爆品背后的消费趋势 济南人!家电以旧换新线上补贴来了!京东、淘宝都能用 杨乐乐珠海购二手房,回娘家小年夜温情满满! 北京购房记54:平谷区二手房市场大揭秘:房价、政策、楼盘全剖析