理想VLM有不少惊喜,但还不是端到端的终局

发布日期:2024-11-13 21:14

来源类型:头条热榜 | 作者:Mathilde

阅读提醒: 7月15日,理想汽车正式向AD Max用户全量推送无图NOA,成为继华为系之后第二家完成全量推送的车企。这次推送将覆盖理想的5个车型、超过24万用户。 无图NOA有了着落,给理想以及...
【新澳免费资料大全】 【2024新澳免费资料大全精准版】 【新澳资料大全正版资料2024年免费】 【2024新澳资料大全免费下载】 【二四六香港资料期期中准】 【7777788888王中王中恃】 【澳门管家婆四肖选一肖期期准】 【澳门必玩的三个景点】 【7777788888新澳门】 【新奥2024年免费资料大全】 【新澳门出今晚最准确一肖】 【澳门天天六开彩正版澳门】 【新澳最准免费资料】

7月15日,理想汽车正式向AD Max用户全量推送无图NOA,成为继华为系之后第二家完成全量推送的车企。这次推送将覆盖理想的5个车型、超过24万用户。

无图NOA有了着落,给理想以及理想的用户乃至投资者吃下了一颗定心丸。

在此前的智能驾驶发布会上,理想发布了正在研发中的端到端+VLM(视觉语言模型)+世界模型的第三代技术架构。

相比现有的端到端技术路线,理想的亮点在于提出了“双系统”的理念,首次将VLM部署到Orin-X芯片,并选择了更为激进的目标,即One Model端到端。

去年下半年,理想开始在团队内部孵化并启动预研端到端+VLM技术架构。理想智能驾驶副总裁朗咸朋表示,目前该技术架构已经完成模型的原型验证和实车部署,“实际上车效果超过了我们的预期。”

不久前,CEO李想在重庆论坛上透露,理想的端到端+VLM技术架构最早会在今年年底,最晚明年年初推出。这是个颇为激进的提法。

发布会之后,雷峰网《新智驾》与一些智驾圈的从业者进行了交流,从他们的角度对理想的端到端+VLM技术架构进行评价。

One Model有可能明年初就上车?

自动驾驶端到端的热潮由特斯拉掀起,FSD V12所表现的超高能力上限,让国内的自动驾驶玩家看到了确定性,形成了新一轮的竞争中心。

在智驾自研上布局较晚的理想,也大力投入端到端。在无图NOA的基础上,理想正在部署第三代架构——基于One Model端到端模型、VLM和世界模型的全新自动驾驶技术架构。

理想的第三代架构参考了丹尼尔·卡尼曼的《思考,快与慢》,也分成了系统1和系统2来模拟人类的驾驶行为,两个一快一慢的系统各占用一块英伟达Orin-X芯片。

系统1,即快系统,由One Model端到端大模型构成——感知与规划共同整合成一个大模型,输入传感器的信息后,直接就输出行驶轨迹,完全由数据驱动,能够应付95%的驾驶场景。

从目前业内披露的信息来看,理想系统1的One Model端到端架构相当激进。

以华为与小鹏为例,这两家的端到端架构还主要划分为两大块,分别是感知大模型与规控大模型,还不是理想宣称的“一步到位”。

由于各家对于“端到端”的理解与定义不尽相同,不同玩家展出的“端到端”模型都有所区别。

根据辰韬资本发布的《端到端自动驾驶行业研究报告》,端到端的核心定义是感知信息无损耗传递,可以实现自动驾驶系统的全局优化。

从传统自动驾驶模型向端到端演进,将经历四个阶段:感知“端到端”、决策规划模型化、模块化端到端、 以及One Model端到端。

目前,业内大多数玩家通过“BEV+transformer”架构已经完成了感知“端到端”,正在努力实现决策规划模型化。

在决策规划模型化阶段,基于感知“端到端”,从预测到决策到规划的功能模块被集成到同一个神经网络当中,用深度学习取代了Rule-based,能够提升决策规划应对复杂场景的上限。

但在这个阶段,从感知到决策规划的接口信息还需要人为定义,感知信息仍有损耗,且两大模型是独立训练而成,还不是真正意义上的“端到端”。

直到进入第三个阶段,即模块化端到端,才能称作“端到端”。在这个阶段,虽然还分为感知与规控两大部分,但感知与规控之间的接口已经不再基于人为定义,保证了信息的完整性。

此外,两个模块之间通过梯度传导的方式进行整体的训练,能实现全局优化的效果。

《报告》认为,目前已经或者接近量产的方案还停留在决策规划模型化阶段,距离模块化端到端或One Model端到端自动驾驶量产落地还有距离,预计模块化端到端将于2025年开始上车。

尽管各家的口号都喊得响亮,但实际上要走向第二个阶段都不容易。

某智驾公司创始人何扬告诉《雷峰网》新智驾,规控纯“端到端”(即决策规划模型化)不现实,如果发生了错误,难以确保要采多少数据才能把这个错误给修正回来,研发迭代和OTA量产都没有保证,因此必须要用规则来为规控“端到端”兜底。

蔚来智能驾驶研发副总裁任少卿也曾在《深网》的采访中表态,到今天来说,业内已经完成规控模型化的玩家都寥寥无几。

任少卿认为,做端到端大模型的前提是智驾各功能模块都已经完成模型化,并且具有足够性能与效率的工程体系支撑,没办法模型化,是因为工程体系还支撑不了这件事,比如需要有快速训练一个模型并快速验证的能力。

“你得有一些基本的能力之后,(端到端大模型)这玩意才有用,否则它是个毒药。”

因此,蔚来采取的是渐进式端到端路线,逐一完成模块的“端到端”。7月11日,蔚来发布了“端到端”AEB,宣称“端到端”的应用使得AEB的场景覆盖率提升5倍,同时误报率几乎没有增加。

据理想官方介绍,理想现在的无图NOA已经把感知和规划各自整合成一个模型,也就是说,理想现阶段已经完成了决策规划的模型化。

而理想最晚要在明年年初实现最后的One Model端到端,这个目标已经超越了业内的整体进度。

算法、算力与数据,是自动驾驶的三大基础。而自动驾驶端到端的数据驱动特质,对算力、数据等基建提出了更高的要求。与特斯拉为“端到端”在算力、数据方面投入的资源相比,国内目前仍有较大差距。

算力层面,根据“汽车之心”统计,特斯拉的DOJO智算中心,预计到2024年10月,总算力将达到10万PFLOPS,相当于约30万块英伟达A100的算力总和。目前,理想的算力储备为2400PFLOPS,这个数值在国内已属于头部。

数据层面的差距也十分凸显。何扬向雷峰网《新智驾》提到,特斯拉每天在线跑的车的数量有200万辆,国内难以望其项背。

某智驾公司高管也曾向雷峰网《新智驾》表示,特斯拉从早年做L2的功能,到高速领航,开始推出Learning-based的规控,并以之为基础做端到端,正好是在它的保有量大概达到百万辆的时候。

“只有当你有这么大规模的数据量以后,才能用相应的方法,当你没那么多量的时候,方法根本用不起来。”

位居新势力榜单榜首的理想,在这方面与国内同行相比具有不小优势。

截至今年6月,理想的车辆保有量已经超过80万台。在可观的保有量里,理想筛选出了只占3%的达到专车司机标准的用户,把这些用户的数据输入到模型中,目前端到端模型已经学习了超过100万公里的数据,到年底可能超过500万公里。

算力与数据均无法媲美特斯拉,国内的端到端玩家选择开辟与特斯拉不完全相同的路线。

VLM是加速端到端上车的妙招吗?

理想的技术路线,是在One Model端到端之外,再加一个基于VLM的系统2提供辅助,配合系统1处理余下的5%的特殊场景。

VLM是LLM(即大语言模型)的进阶版,除了处理文本,VLM还能处理视觉输入,认识所在的场景,此前在具身智能领域已有较多探索。

理想是国内第一家公开将VLM这个概念引入自动驾驶的车企。但实际上,VLM在自动驾驶领域的应用可以追溯得更早。

今年5月获得10.5亿美元融资的英国科技公司Wayve,在23年9月年就发布了基于VLAM的LINGO系列的第一个模型,将自然语言引入了自动驾驶,让自动驾驶系统解释自己的决策逻辑,提高了模型的可解释性。

“大语言模型收集语料,通过预训练拥有了隐性的知识,包含了常识性的东西,具备一定的思考和退避能力。”

某车企智驾模块负责人徐智告诉雷峰网《新智驾》,VLM所具有的这些显性优势,理论上能帮助解决长尾问题,这也是为什么业内要尝试把大语言模型引入自动驾驶,甚至提出要用大语言模型替代传统的规控算法。

今年5月,小鹏声称已经量产的端到端大模型实际上也运用了大语言模型。小鹏的端到端由感知神经网络XNet、规控大模型XPlanner、AI大语言模型XBrain三部分组成。其中,大语言模型XBrain能够提供系统处理复杂甚至未知场景的泛化处理能力。

理想方面表示,基于VLM的系统2能够提供复杂环境的理解能力、读懂导航地图的能力以及交通规则的理解能力。

比如当系统2识别到坑洼不平的路面,或者光线较差的道路环境,会对驾驶员和系统一发出提醒,并适当减速。

系统2还能理解潮汐车道、公交车道等交通运行规则,知道在什么时间开哪条车道,对系统一作指导和建议。通过读取导航信息,系统二还能判定系统一是否有走错路,并实时规划新的路径。

朗咸朋表示,“系统2的角色相当于我们的副驾永远坐了一个驾校的教练,这个教练也会时时刻刻监督你的行为,当你开错道或者需要帮助的时候,它会主动提供一些建议,让你更好地开这个车。”

不过,从“纸上谈兵”迈入量产,现实非常“骨感”。车端算力有限,VLM这类动辄10亿参数量以上的大模型难以在端侧部署,是落地最显性的难题。

理想是第一家将VLM部署到Orin-X芯片的企业。理想的VLM参数量达到22亿,为了把这样一个大模型部署在车端芯片,理想做了许多尝试并与英伟达共同合作,最终将推理性能从4秒降到了0.3秒。

不止一位自动驾驶业者认为,理想对于VLM模型在车端芯片上运行的时延问题,优化得比想象中要更好。

“学术界一直有对VLM进行探索,在工程化上,理想能够把时延从4秒压缩到0.3秒挺令人震惊,这意味着VLM已经开始具备实用性了。”徐智表示。

但0.3秒的时延,也表示理想的VLM只能扮演一个非实时的监督者,提供辅助。如要承担系统1这样的主线任务,时延要达到30~50毫秒级别才算合格。

视觉算法工程师梅乐表示,理想的系统2由于时延的问题实际上无法处理突然发生的Corner Case,VLM的作用主要还是在规划层面。

“实时的感知和规划会丢掉更多的历史信息,但是VLM跑得比较慢,可以把更长的历史信息积累下来,可以给出更多关于场景的信息,帮助规划收敛到一条更合适的路线。”

据介绍,理想的VLM采用流式视觉编码器,相比于大部分的单帧VLM来说,可以缓存更长的视觉时序。同时,理想还设计了一个记忆模块,用来缓存多帧历史信息,更好地来执行超长时序的推理问题,解决超长时序的推理时延。

理想基于VLM的系统2,相当于给系统1上了一个“外挂”。

梅乐认为,“端到端大模型上车,还有很长的路要走,如果优化的效果没有达到一定程度,车企是不敢贸然上车的,这时候有个外挂系统,起码让车企的信心更足一点,能加速端到端更快上车,是挺好的尝试。”

理想的双系统技术架构,是否会在业内掀起一波跟风潮?

梅乐认为,“VLM能起到作用是无疑的,但是业界真正关注的是,VLM花掉的算力和所实现的功能之间的投入收益比,这也是各家要不要跟进的一个决定性因素。”

另一方面是,“特斯拉的路径已经证明了,好的司机是不需要教练的。”

VLM的赋能,最终能为理想的端到端提供多大的帮助,在未正式量产前还难以判定。

徐智最近在研究VLM模型在机器人领域的应用。他表示,用VLM来控制机械臂,从目前的研究来看,即便是针对专门的简单场景,如执行把物品放在桌子上的指令,若经过VLA、模仿学习的优化后,机械臂执行任务的成功率是80%,若没有经过优化,成功率只有30%不到。

“这个概率对于自动驾驶来说是无法接受的,现阶段就把VLM用起来其实难度挺大的。”

目前来看,端到端的技术路线尚未收敛,理想的双系统架构是其中一项不乏创新性的探索。

过去,在蔚小理三家中,理想对自动驾驶的投入相对保守。去年理想开始大力扩招并追赶进度,今年一季度研发投入达30亿元,同比增长64.6%,理想正在以更积极的姿态加入这场竞争中。

【澳门一码一肖100准吗】 【新澳门免费资料大全精准版】 【新奥好彩最准确免费资料】 【新澳天天开奖资料大全旅游攻略】 【资料大全正版资料】 【新澳2023年精准资料大全】 【澳门二四六天下彩天天免费大全】 【最精准澳门免费资料大全】 【2024澳门天天开好彩大全162】 【新澳2024年精准正版资料】 【新澳资料免费大全】 【2024澳门天天开好彩免费大全】 【新奥天天彩免费资料最新版本更新内容】 【210期新澳天天开好彩结果】
【新澳门彩历史开奖结果走势图表】 【新奥精准资料免费提供】 【新澳门资料大全正版资料查询】 【新奥最新版精准特】 【新澳2024正版资料免费公开】 【新澳门六开奖结果记录】 【2024新奥精准资料免费大全】 【2024新澳精准资料免费提供下载】 【澳门天天开彩大全免费】 【新澳天天彩免费资料】 【澳门一肖一码100准最准一肖_】 【600图库大全免费资料图2024】 【2024澳门码今晚开奖结果】 【2024澳门天天六开彩免费】

下载中心

视频封面

视频名称:促跨国科技合作,东莞举办中拉技术转移合作发展交流会

大小: 6.7GB 下载:(209268) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:意向成交800亿美元!进博七年之约沉淀质变“奇机”

大小: 5.2GB 下载:(263533) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:一块26万元!77年前制作的已故英国女王的婚礼蛋糕被中国买家拍下

大小: 5.9GB 下载:(759652) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:中华人民共和国能源法:氢能被正式纳入能源管理体系!

大小: 1.7GB 下载:(701206) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:一文读懂何为“隐性债”“债务置换”,为何此次12万亿元大规模化债

大小: 2.9GB 下载:(282941) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:杨焄︱“睡美人”来到中国之后(下)

大小: 9.4GB 下载:(522699) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:蓝佛安:增加的6万亿地方政府债务限额分3年安排仙剑奇侠传4,人物传之玄霄,仙剑4中的人气王

大小: 3.6GB 下载:(974833) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:上好消防“开学第一课” 北京消防为校园消防安全保驾护航情史干净的6位女星,长了一张“风情”脸,却是全部零绯闻

大小: 6.4GB 下载:(985759) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:女生BOSS直聘上应聘,被要求试岗期间陪睡?警方介入

大小: 3.7GB 下载:(996323) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:“七巨头”愈发闪耀:微软市值突破3万亿美元 英伟达、Meta等刷新历史新高

大小: 1.6GB 下载:(609319) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:娃哈哈经销商大会,宗馥莉挨个桌敬酒,网友:和她爸一样没有架子

大小: 9.7GB 下载:(992117) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:美股第七家、全球第九家!伯克希尔哈撒韦公司市值首次突破1万亿美元42岁男子未婚不愿相亲,被逼急,含泪讲出真相,63岁母亲追悔莫及

大小: 4.5GB 下载:(238827) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:以色列总理内塔尼亚胡解雇国防部长加兰特

大小: 6.1GB 下载:(340193) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:3名在职大专“95后”女干部拟履新,当地回应

大小: 7.6GB 下载:(815033) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:北京:《中国民生ESG社区生态发展报告》发布会暨平台启动

大小: 4.4GB 下载:(532126) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:【多多开团助手消息】遭恶意仅退款的电商敲开羊毛党家门

大小: 6.5GB 下载:(165372) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:合适周末假期做的70件小事,利用碎片化时间变优秀,建议收藏

大小: 5.1GB 下载:(763591) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:亚太媒体看贵州:金沙酒业以酱酒为媒,构建文化交流之桥笑点低慎入!网友神吐槽合集,专治各种不开心,真是笑不活了

大小: 1.6GB 下载:(834708) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:“大金融思想沙龙”总第178期:地方中小金融机构的风险处置要充分发挥地方政府的作用

大小: 7.5GB 下载:(462121) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:叮咚买菜翻红,但下结论还有点早3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 5.3GB 下载:(790235) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:彭高穿139元衣服现身中山大学,豪门外戚之女翁青雅弃他有苦衷

大小: 8.8GB 下载:(137945) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:人大常委会能源法2025年1月1日起施行宿敌:张弛诬陷吴豫是叛国的间谍,他大意了,不知背后有张大网

大小: 2.8GB 下载:(184934) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:啥情况?泽连斯基致电祝贺,特朗普把电话递给了马斯克

大小: 5.4GB 下载:(144479) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:广元朝天:课堂搬进田园 学生们在劳动中成长

大小: 3.4GB 下载:(657704) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:一季度五大上市机场:广州旅客破千万,深圳、厦门实现盈利

大小: 4.5GB 下载:(287902) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:读创今日荐书 如何评价吴宓的学问与人生?

大小: 5.7GB 下载:(599560) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:5月起中国烟草将面向全国招人,年薪10万+,符合条件或能优先录取黑棋团紧气,退使黑棋渡过,使白棋只能做出一只真眼

大小: 6.1GB 下载:(669327) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:中央点名后,南昌决心“一拆到底”,保护绿水青山!

大小: 5.1GB 下载:(442550) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:《邢州报》出版工作座谈会召开 全力打造“文化兴市”战略传播主平台

大小: 8.7GB 下载:(746592) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:卫生巾长度“缺斤少两” ?实测调查:多家品牌踩着国家标准下限生产,最大相差66毫米

大小: 9.4GB 下载:(530054) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:日经指数创新高,“特朗普牛市”再现3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 4.7GB 下载:(860632) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)

评论

打开APP查看59条评论

李艳秋

7秒前

据介绍,理想的VLM采用流式视觉编码器,相比于大部分的单帧VLM来说,可以缓存更长的视觉时序。

刘颖君

7分钟前

数据层面的差距也十分凸显。

迈克尔·瓦尔坦

6天前

此外,两个模块之间通过梯度传导的方式进行整体的训练,能实现全局优化的效果。

发表您的评论: