爱因斯坦有曰,“瀚宇初开,万物当生也。万物可谓振动,能光旋律之荡漾焉。”(注:作者中译)。AI新技术革命时代,大算力芯片也拨响了自动驾驶ADS的琴弦。大珠小珠般的AI算法在大算力驱动下应运而振,应时而动,解决了ADS从L到L逐级演进中的众多技术难题。ADS每增加一级,算力需求也会呈现十倍速上升,L级别可预计的算力需求在TOPS,L级别估计在-TOPS。如图所示,后摩尔时代工艺更新性能提升放缓,延续性创新的边际效益递减,新兴的大算力架构在不断涌现,加上驾驶AI算法高速迭代演进,在未来-年内可能会为后来的技术追赶者提供非常奇妙的一个直线超车的机会窗口。
图. 大算力时代自动驾驶ADS领域的机遇与挑战
当前ADS自动驾驶采用决策层后融合的方式,其局限性主要表现在在极端恶劣气候与复杂遮挡等不确定性场景下分别进行单模结构化信息提取后再进行融合决策,每个通道信息会有不同层面丢失,很难能够进行多模有效互补与特征提取共享,算力内卷且性能远低于预期。
未来ADS算法会进入一个全新的.阶段,D空间下基于时空的多模感知与融合推理, 也就是特征提取/统计推断/应急预测相结合,实现在动态复杂的有噪声干扰等场景下,全程安全无碰撞的高效行驶。挑战可以体现在,动态随机的人车物交互,多变天气路况,以及突发交通事件等。
ADS算法.从决策层后融合走向特征级前融合,当前行业ADS.算法主要演进方向为:
多模感知:主要是针对Camera/LiDAR/Radar海量数据流进行特征提取,DL网络主流趋势是卷积CNN或者贝叶斯NN+Transformer的组合架构,在统一的特征空间实现多模感知,特征融合共享以及多任务来提升算力的整体效率。
融合推理:主要是基于模型与基于数据的双学习模式,DL网络主流趋势是基于目标交互GNN或基于统计模型的贝叶斯RL强化学习或On-Policy应急学习,实现ADS安全可信的预测规划与控制。
ADS.算法演进与对算力的新需求,可以总结为:
演进趋势:感知定位预测决策控制模块化处理流程中, 从决策层后融合走向感知层前融合,算法能够在统一空间支持多模融合,多任务共享;
演进趋势:预测与规划联合建模,从可获得的Off-policy数据进行学习,能够自学习处理不确定性下的安全性问题,解决可解释问题,持续学习解决新场景问题;
算力新需求:从compute-bound(矩阵-矩阵乘)走向memory-bound(矩阵-矢量乘),从偏计算走向偏存取。
当前市场上主流算力NPU芯片,都存在几个共性问题,一是算法效率低,多数只针对CNN(例如x卷积)优化;二是内存墙问题:处理单元PE存算分离,数据共享难;三是能耗墙问题:数据重复搬移,耗能增加>-%。所以,当前针对某些特定算法的芯片,无法解决未来ADS .的需求。
从工程实践上看,ADS .算法需通过“硬件预埋,算法迭代,算力均衡” ,提供一个向前兼容的解决方案,以通用大算力(CPU的-倍性能提升,NPU的-倍性能提升)来解决未来不确定性的算法演进:
底层架构的演进:从存算分离过渡到近内存计算,最终走向内存计算;
数据通道与模型:高速数据接口;数据压缩+模型压缩+低精度逼近计算+稀疏计算加速;
并行的顶层架构:模型-硬件联合设计,以及硬设计可配置+硬件调度+软运行可编程调度引擎。
未来,自动驾驶算法不会止步于ADS .,而能够真正支持人类自动驾驶梦想的算法ADS .趋势,我们估计会采用一个DNN网络来进行端到端学习。设想一下,有足够的专家驾驶数据用来做模仿学习或采用RL自学习模式,可以有效降低数据标注的信息瓶颈与严重依赖,从而能够从多模多样化数据层面进行非直接的推理或者博弈类的对抗学习。ADS .目前来看模型的可信与可解释程度依然远低于预期。ADS系统的总体演进趋势,可以总结为:
场景演进:负载多样性
➤ 从数量有限的摄像头设置走向 Camera + LiDAR + Radar 多模态组合。
趋势演进:算法多样性
➤ 从CNN+Rule-based方案走向CNN, RNN, Transformer, GNN, Bayesian, Deep Reinforcement Learning, Dynamic DNN, NAS Generated DNN, Variably Quantized DNN多算法组合。
大算力时代,ADS系统首先是模仿人类的驾驶行为,通过注意力机制,期望在感知定位预测规划控制领域提供远超人类的决策能力。这需要我们在AI的三要素(算法、算力、数据)基础上添加第四要素,知识或者常识。
而上述要素,均需要在充分理解算法的快速迭代的大趋势下,拥有充足的超大通用算力,ADS系统在离线模仿学习人类驾驶先验知识经验与规则的基础上,能够提供在线自主学习能力,通过自学习激励与博弈共赢策略应对众多不确定性的人机交互的复杂环境,能够对决策不充分的场景下做到安全应对和提供可信解释能力。此外,大算力芯片也需要能够通过额外的算力,对芯片内百万级的并行计算单元提供故障检测与安全规避能力,对大量多模传感器的部分或者完全失效进行有效检测与应对决策处理,对驾驶环境针对传感器的主动攻击与外界目标非主动干扰进行有效检测与实时决策处理。