自动驾驶系统中的复杂计算是否依赖于硬件计算能力或计算效率?这是许多初创企业面临的实际问题。依靠前者需要大量投资,而依靠后者则离不开基础技术的研发。
在CES 2021上,L4自动驾驶解决方案提供商Yuan Rong Qixing将在线展示其为L4自动驾驶深度学习模型开发的推理引擎DeepRoute-Engine。推理引擎实现的平均推理速度比开源深度学习框架高6倍。
自动驾驶的计算效率已大大提高,自动驾驶摆脱了对高计算能力计算平台的依赖。为了使自动驾驶感知人类等周围物体,需要通过深度学习来完成,也就是说,需要通过大规模且复杂的深度学习网络模型对输入数据进行推理。
在推理过程中,需要实时完成大量计算。因此,自动驾驶公司对计算平台的计算能力有严格的要求。
这种计算平台不仅要花费数万元,而且要消耗数百瓦的电能。假设计算平台的平均功率为500W,则其24小时功耗约占电动汽车存储容量50kW·h的24%。
为了摆脱自动驾驶对这种计算平台的依赖,降低自动驾驶硬件的成本,并减少自动驾驶硬件能耗对汽车行驶里程的影响,袁荣启兴选择了另一种方法。通过自行开发的推理引擎-DeepRoute-Engine,L4自动驾驶的感知模块可以在低成本,低功耗的计算平台上运行。
根据袁荣启兴和曹操旅行社共同开发的自动驾驶模型Geometry A的实际车辆测试,袁荣启兴的自动驾驶系统每100公里仅消耗1千瓦时电。功耗还包括2人在车上的负载,空调已打开以及传感器风阻的能耗。
在自动驾驶系统中,感知模块是核心和计算量最大的软件模块。为了提高感知模块的运行效率,有必要适应感知算法的特点,计算要求和计算平台的架构特点,以驱动系统的高效运行。
定制的推理引擎等效于定制的驱动程序,不仅可以提高感知模块的运行效率,而且可以提高系统的可伸缩性并与更多的计算平台兼容。 L4自动驾驶感知算法使用的深度学习框架非常复杂,并且需要实时进行大量复杂的计算。
当前市场上的大多数开源推理引擎都无法处理复杂的L4级自动驾驶深度学习模型。但是,诸如Caffe,TensorFlow和PyTorch之类的深度学习框架尚未针对复杂的深度学习框架进行计算优化。
因此,它们的计算效率不令人满意。袁荣奇星的推理引擎通过智能算子融合将推理过程中可以合并的操作进行合并,大大提高了计算效率。
DeepRoute-Engine还为不同品牌的计算平台设计了定制的内核程序,以执行所需的大量并行计算。 DeepRoute-Engine当前支持AMD,Nvidia和Intel等品牌的GPU,以及华为的车载计算平台。
当前,市场上用于自动驾驶的常见计算平台包括使用GPU,FPGA和ASIC架构的CPU和AI芯片。由于自动驾驶系统需要处理由激光雷达和照相机等传感器收集的大量数据,因此传统的CPU计算能力越来越无法满足使用要求。
基于GPU架构的AI芯片已成为自动驾驶的必要硬件。我国和国际制造商在GPU的生产方面仍然存在一定差距。
袁荣奇星开发的推理引擎适用于不同品牌的CPU和AI芯片,并解决了“瓶颈”问题。用于自动驾驶的计算平台。
袁荣奇星副总裁刘念秋说:“通过DeepRoute-Engine,袁荣奇星已经将复杂的深度学习模型应用到了主流的计算平台上。

