当前位置:首页 > 大咖说车 >

AI真的能影响自动驾驶吗?

AI真的能影响自动驾驶吗?

发表于 2024-01-02 汽车产业观察网 责任编辑:刘慧

撰文 / 于 骞(轻舟智航联合创始人、CEO)

编辑 / 张 南

设计 / 师 超

2023年因此被视为“城市智能驾驶元年”。

随着技术的成熟和消费者需求的增长,城市NOA大战已经开启,正在成为影响购车的因素。作为一家自动驾驶国内供应商,轻舟智航的“轻舟乘风”方案给出了几个极具性价比的选择。

在于骞看来,智能驾驶技术三个发展阶段,分别是规则定义,场景定义和数据定义。企业所展示出来的智能驾驶能力只是冰山一角,最重要的是隐藏在水面之下的关键能力。这种关键能力,正在经历以模型为中心到以数据为中心的阶段。

大模型的兴起,人工智能时代的到来,AI将如何影响自动驾驶,他有着自己的观点。

以下是于骞的演讲实录:

我今天主要想讲的是从模型为中心的Model Centric到Data Centric的变化,包括人工智能,大家经常讲的AGI,通过人工智能对自动驾驶的技术栈有什么大的影响。

可以看到大家在智驾的领域内有不同分类,有的是比较基础的功能,也有一些像高速、城区,还有一些完全自动驾驶,大家都在叫自动驾驶,但定义是不完全一样的。

我看到中国市场变化非常快,高速NOA和城市NOA对比,可以看到最近一两年之内增长是非常迅猛的,尤其是华为和小鹏的主力车型,像小鹏G9,还有问界M7高配版高阶智驾的比例是非常高的,超过普通智驾能力的产品在售卖。

现在我们看到,城市NOA高阶驾驶能力越来越成为影响消费者购买行为的要素,这个是中国市场上比较明显的变化,另外大家对世界认知有非常不一样的感受,我们在路上看到各种各样的复杂情况,包括交警手势、动物识别,异常事故,消防车,急救车的意图等等,其实是非常复杂的环境。

在面向消费者的场景下,首先是高速场景落地,因为高速遇到的情况相对来说比较少,但在城市环境内情况是非常非常多的,所以这种难度是远远大于高速场景的。

轻舟的选择

轻舟智航作为智能驾驶解决方案公司有3套方案。

单激光雷达,用一颗激光雷达以视觉为主的,我们叫Max方案,主要针对全场景的城市NOA场景;中间的Pro方案,主要是11个摄像头,5个毫米波,不带激光雷达的方案,主要解决的是高速场景和一部分城市场景;还有一个减配的Air方案——7V5R,或者是更减配的方案,实现的是高速场景。

所以我们看自动驾驶的技术发展基本有3个阶段,首先比较基础的功能都以规则为主,人理解以后写出各种各样的,以人类先验知识为核心的手写规则,但带来的问题是没有办法辨别道路上出现的各种情况,只能用到基础功能,车道保持,前车跟随等等。大部分基础功能现阶段,还是以规则定义为主。

还有一个关于场景的定义,人们把自动驾驶遇到的情况分成高速、城区。高速上的各种场景,城区上的各种场景都通过场景分成更细的场景,一个一个解决,但是在一定的ODD范围内可以实现高级别的自动驾驶,但是我们面临的长尾问题非常多,这种corner case很多,造成场景定义的方式也是非常困难的。

这种场景定义的方式有一定的局限,未来定义更大的方面是以数据定义的方式,当我们有很强的学习能力,有更大的规模数据,有几百万台车,上千万台车跑的时候,这里边有大量的,我们很难去人为规定的一些场景。

比如说,在高速上出现忽然掉下来一个床垫,也有可能出现一些石头或者事故,很难通过这种场景定义,更多的是靠对物理世界的真实理解来决定的。

在这种方式下,只能通过大规模数据才能显著提升自动驾驶能力,这个是我们对自动驾驶演进发展技术包括未来发展的认识。

水面下的冰山

在自动驾驶领域,我们经常关注的是用了几个摄像头,用了几个毫米波,几颗激光雷达,用了什么样的域控制器,用了什么样的芯片?大家会更关注在车载这部分的工作,当然这也是非常重要的工作。

实际上,在车载的系统水面以下形成了一个冰山——整体的自动驾驶技术栈。这是非常大的庞杂的系统,这些不在车上跑的技术是非常关键的,但往往不被大家所关注。

很简单的道理,如果我们把各种各样的传感器,硬件计算单元都简单堆积在一台车上,是没有办法具备自动驾驶能力的,都需要有底层软件,尤其是离线软件的支持。

尤其像我们也看到,在市场上有不同配置的车,有一些配置非常高的车,但是驾驶能力反而在很多的情况下不一定比一些配置更便宜的车体验更好,有一种形容是“光把料堆上去,但是如果体验做不上来也是一种浪费”。

冰山理论,我们认为在水面以下有很多自动驾驶的关键能力,包括数据怎么样能很好地流转起来,怎么样更好的管理,把它做筛选、标注、训练以及大规模仿真的验证,实现高效的数据闭环,我们认为是实现自动驾驶大范围普及的非常关键的能力。

很早以前大家讲的是模型非常重要,大家把模型固定好了,不断调试模型看车上有更好的反应,通过这种方式反复提升模型。其实现在技术发展方向正从模型为中心转向为数据为中心,很大程度上模型没有太大的改变了,虽然可能会有一些变化和调整,但更大的价值来自数据——怎么用更多数据进行训练,怎么用更低成本获得监督信息,怎么保证数据的质量以及很好的分布,从这个角度,大量的技术在这方面围绕数据为中心的技术在演进,这是我们看到的行业中比较大的发现。

尤其是AGI的时代出现,在数据规模方面,模型相比数据规模来讲的重要性变的越来越小,这是我们看到的。

ChatGPT和AGI非常火,到底什么样的模型算是大模型?对于行业中经常讲的大模型具备的能力和优势,我们认为起码有3方面特性,否则很难叫大模型。

首先一定是多任务模型,以前我们说的机器学习模型经常是针对一个单点模型,比如说针对目标检测,或者是针对人脸识别,或者针对语言识别,或者是自然语言理解这样单点的任务,但在AGI时代,大部分尤其是像ChatGPT可以做很多事情,是一个非常复杂的多任务系统,这是非常明显的特征。

第二是多模态特点,不光是语言文字、图像、语音和视频,它是多种信息输入方式来实现的,不能只是单一信号,另外还有非常重要的特性,就是能够以非常低的成本获得监督。

大家可以看到,为什么ChatGPT这么火?基本上它把人类社会存在的所有的语言文字信号全部利用起来了,包括知识信息,基本上是跨语种的,不只是针对英文,而且获得监督的信息是相对讲成本较低,只有这样,才能使得数据规模有很大提升。如果只是用监督学习,非常高的监督成本很难把数据规模提升上去,基本上会具备这样的特性。

在自动驾驶领域的应用,这里展示了轻舟的感知模型OminiNet,它能够在车载上做40多种任务,同时也是一种多模态的,可以接受图像、激光雷达、毫米波还有超声波这样的不同传感器的输入来实现多模态多任务。

PPT上介绍了OminiNet的一些特点,在特征空间下的融合,以及前中后不同的融合,最终结果是在不同层面,包括目标检测,多物体跟踪,时序信息都结合在一起的多模态的融合网络。

这个是展示了在城市道路不同场景下的同一个网络输出的不同结果,比如说道路几何以及目标检测分割,还有像三维空间上的Pillar实例的输出以及运动的输出,包括占据网格以及语义的理解。这个特点并不是说同时做多个任务靠多个网络,是一个网络同时完成多种任务的,很大程度上提升了感知的精确度和准确性。

另外,这个网络能够实现泊车,大家以前是把行车和泊车分开处理,我们现在通过一个网络实现不同场景下统一的模型训练,这样有更强的感知能力,包括在泊车场景的一些展示。

另外关于很低成本的监督,我们展示了在预测网络下的一些成果,预测是一个自动驾驶领域对周边环境其他交通参与者的输出。我们知道其他环境感知物体是怎样运动的,这样获得监督信息是非常低的成本,基本上不需要太多人的标注成本在里面。我们和行业中比较头部的方法进行比较,不管是在延时和在准确度上都是非常强的体现。

我们也在运动预测的挑战赛(Argoverse)上获得了非常好的成绩,刚刚讲的还是我们在模型方面的努力,更大的层面上是怎么通过离线方法,水面以下的技术能够使得自动驾驶快速高效迭代?这里面展示了我们通过自动化数据标注来产生海量高质量标注数据,这里面涉及到在离线2D标注,以及半监督地图标注特点。

我们可以以非常快的速度,在很短的时间内产生非常高质量的标注数据,这个对在线模型训练有很大帮助,包括离线的点云大模型,产生自动化的目标检测真值,以及基于这种视觉方式在离线的情况下产生非常完整的3D重建方式。

我们在一些量产车型上讲是没有激光雷达的,如果我们希望利用他们这些量产的数据获取真值,必须有办法通过纯视觉方式获得三维环境重建,得到真值效果。

比如说泊车,在地下车库纹理非常少的情况下以非常低的成本获得3D重建的结果。还有基于语言文字的大规模数据挖掘,比如说我们直接输入“big truck on night”自动找出已经收集的场景,可以更好帮助我们在训练数据当中获得很好的分布。

大家知道,数据规模是一方面,即便自动化可以做很多标注,但是如果数据分布不合理,或者都是一些很简单数据,其实有很多的问题。所以我们更多是在数据质量和数据分布方面去做的一些工作,包括怎么样通过3D点云大模型进行数据校验的情况,以及跨模态的方式,通过跟离线的点云模型和在线的点云模型进行比对找出特例的情况。

在这些方面的工作并不依赖某一个特定的芯片和传感器,更多的是水面以下的技术怎么使得数据更好地被表示、更快地被标注,怎么样更快地进行数据验证和测试,这个是通用的自动驾驶的核心能力。

未来的数据训练

当然我们认为在未来的模型的演进中,可能会出现更多新的方法,比如说模型的变化,现在是强行分成感知、预测、规划这样的人为能理解的模块,但是未来的自动驾驶的模型的演进可能会变成一些更加面向像人类一样的端到端的模型的方法,最近有很多新的进展在出现,尤其是在行业当中,包括特斯拉前一阵也发出端到端的视频出来。

一旦进入这个阶段,输入信号完全是原始的传感器的信息,输出就是方向盘,刹车,油门这样的控制命令,在这样的技术演进的方向下,数据的重要性越来越大。想象中有数百万辆车每天都在搜集非常高质量的驾驶行为的数据,以及环境数据,相信这个越来越多的数据的重要性,以及怎么能够把数据流转起来的重要性会凸显出来。

我们也相信这个技术并不是从石头缝里蹦出来的数据,也是需要很多对不同模块,像感知规控预测这样的基础模块深度理解和一部分的监督才能实现的。

我们认为最终自动驾驶发展方向大概是这么个图来表示,最基础的是传统ADAS功能,大部分是一次性交付的,很多情况下是一手交钱一手交货,一旦交付再也不会改变了,但是很重要的分水岭在OTA。

有了OTA的升级以后,在自动驾驶的系统里面才会出现常用常新,越用越好,通过数据不断迭代更新,使得这样的体验发生重要的变革,所以在技术演进的过程当中,基本上看到比较正常的方式是L2+高速场景覆盖,大家可以看到很多智驾车辆开始具备高速能力,到今年年底,中国很多车企已经开始把城市NOA做成重要亮点,而且消费者开始认可这个事情。

最终完全实现无人驾驶的时间是城市NOA之后,我们有一句话是城市NOA是辅助驾驶的天花板,是无人驾驶的入门槛,当我们看到市面上的车可能有很大比例,比如说20%的车都具备城市级别NOA的功能以后,真正无人驾驶才能到来,这需要相当比较长的时间才能实现。

这个过程当中,我们希望的是不断满足用户日益增长的需求,为客户和用户不断产生价值,这是是我们对未来的看法。我们非常坚信完全无人驾驶可以实现,这需要一个过程的不断演进,一步一步实现。