盖世汽车获悉,5月13日,小米正式发布Xiaomi OneVL,这是一个面向自动驾驶的一步式潜空间语言视觉推理框架。该框架首次将VLA模型、世界模型与潜空间推理等多条技术路线整合到同一体系下,在保持强大推理能力的同时,显著提升了推理速度与精度。
据介绍,Xiaomi OneVL采用了“语言推理+视觉未来预测”的双重监督机制,将可解释性与世界模型的未来预测能力共同融入潜空间推理过程。
其核心思路在于:自动驾驶所需压缩的信息并非仅限于语言层面的推理,而是对未来视觉世界变化的整体理解。驾驶决策更多依赖于车辆运动、道路几何、障碍物演变等时空因果关系,单纯压缩语言可能会丢失关键结构信息,而压缩对未来视觉画面的预测则能更有效地保留影响驾驶结果的核心要素。
基于这一思路,小米提出了三项关键技术,核心思路是让模型在内部以自身“语言”进行思考,学习预测未来视觉画面,并将整个推理链条压缩至一步完成。在多个主流推理与规划基准测试中,Xiaomi OneVL全面刷新了现有潜空间推理方法的性能记录,其精度超越显式思维链方法,速度则与“仅答案”预测模式相当。
小米集团雷军表示,该模型及代码将全面开源,欢迎全球开发者与研究人员共同参与,推动自动驾驶大模型的进一步发展。
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
东方树叶卖疯后,农夫山泉想再造果汁饮料大爆款
4月18日,农夫山泉在其公众号推出新品“大柠檬”系列,闯入热闹的...
紫米ZMI原核心团队打造:CUKTECH20号电
原小米旗下3C配件品牌ZMI核心团队打造,CUKTECH20号超...
联想推出GeekProG5000锐龙版笔记本:R
,联想今日推出GeekProG5000锐龙版笔记本,搭载R778...
不用光刻机也能生产高端芯片,华裔科学家晶体管研究
,传统半导体芯片性能主要取决于多层晶体管的密集堆叠,如今随着新兴...
拼多多2023年Q1营收376.4亿元同比增长5
感谢IT之家网友DynamIK的线索投递!,拼多多今日发布了截至...
农发行定兴县支行支持县域经济建设
定兴农发行聚焦全县ldquo;三农rdquo;重点领域和薄弱环节...