2. 清华大学 汽车安全与节能国家重点实验室, 北京 100084;
3. 清华大学 计算机科学与技术系, 北京 100084
2. State Key Laboratory of Automotive Safety and Energy, Tsinghua University, Beijing 100084, China;
3. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
深度学习技术在自动驾驶领域取得了巨大成功,优点是精准性高,鲁棒性强,以及成本低。无人驾驶车辆商业化成为焦点和趋势。汽车企业、互联网企业都争相进入无人驾驶领域。
谷歌(Google)公司于2010年开始测试谷歌无人驾驶车辆(Google driverless car)。其定位是实现所有区域的无人驾驶,即无需任何人为干预的车辆驾驶。图 1为其核心架构。目前已经测试了48万km,并获得了合法试验车牌。其他公司如特斯拉、沃尔沃、宝马等公司也对无人驾驶技术进行了深入的研究,其近期定位是实现高速公路上的高级辅助驾驶。同时,中国的百度、滴滴等公司也对无人驾驶进行了大量的研究。
汽车行业是一个特殊的行业,因为涉及到乘客的安全,任何事故都是不可接受的,所以对于安全性、可靠性有着近乎苛刻的要求。因此在研究无人驾驶的过程中,对于传感器、算法的准确性和鲁棒性有着极高要求。另一方面,无人驾驶车辆是面向普通消费者的产品,所以需要控制成本。高精度的传感器[1]有利于算法结果准确,但又非常昂贵(如激光雷达),这种矛盾在过去一直很难解决。
如今深度学习技术带来的高准确性促进了无人驾驶车辆系统在目标检测、决策、传感器应用等多个核心领域的发展。深度学习技术,典型的如卷积神经网络(convolutional neural network,CNN),目前广泛应用于各类图像处理中,非常适用于无人驾驶领域。其训练测试样本是从廉价的摄像机中获取的,这种使用摄像机取代雷达从而压缩成本的方法广受关注。
本文着重对深度学习在无人驾驶领域行人检测、立体匹配、多传感器融合与汽车控制核心技术上的发展近况进行概述。
1 行人检测汽车行业对于行人的安全保障有着极高的要求。在自动驾驶领域,无人驾驶车辆必须具备通过车载传感器检测行人是否存在及其位置的能力,以实现进一步的决策。一旦检测错误则会造成伤亡,后果严重,所以对于行人检测的准确性要求极高。而行人检测这一核心技术充满挑战性,如行人姿态变化、衣着打扮各异、遮挡问题、运动随机、室外天气光线因素变化等等。这些问题都会影响到行人检测技术的准确性乃至可行性。
目前的基于统计学的行人检测方法主要分为2类:1)提取有效特征并进行分类;2)建立深度学习模型进行识别分类。
1.1 基于特征描述与分类器的行人检测通过先验知识建立的特征描述配合分类器进行行人检测是传统的主流方案,科研人员据此进行了大量的研究,提出了多种适用于不同环境的行人检测方法,如表 1所示。
行人检测方法 | 提出年份 | 描述 |
HOG[2] | 2005 | 刻画图像的梯度特征,可采用积分图技术快速计算 |
Edgelet[3] | 2005 | 描述行人的局部轮廓方向特征 |
边缘模板[4] | 2007 | 从样本中学习行人的形状分布模型,模板需手工标注 |
LBP[5-6] | 2008 | 计算速度快,对单调变化的灰度特征具有不变性,低分辨率下判别能力较差 |
COV[7] | 2008 | 局部区域图像块中各像素的坐标、灰度的一阶导数、二阶导数和梯度方向的协方差特征 |
CσHOG[8] | 2009 | 通过“梯度对”更好地描述了梯度的空间分布特征,但是向量的维度太高 |
积分通道特征[9] | 2009 | 一种自然的多种异质特征融合方法;参数少且对具体参数值不敏感;检测器空间定位更加准确 |
自适应轮廓特征[10] | 2009 | 具有较强的判别能力,能自适应地从训练样本中学习出行人的轮廓特征 |
GG[11] | 2009 | 刻画图像区域的结构信息和统计特征 |
CSS[12] | 2010 | 利用局部部位间的颜色相似性来刻画人体的结构特征 |
CENTRIST[13] | 2011 | 刻画图像的全局轮廓特征,计算简单快速 |
目前最成功且主流的行人检测框架是方向梯度直方图(histogram of oriented gradient,HOG),由法国研究人员Dalal和Triggs在CVPR2005上最先提出[2],在速度和效果的综合平衡上有着很好的表现,后来,很多研究人员在此框架上提出了很多改进[14]。
HOG是计算机视觉中一种重要的图像局部纹理的特征描述子。其核心思想为:在一幅图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述;其本质为梯度的统计信息。而梯度主要存在于边缘的地方。通过累积计算图片某一区域中不同方向上梯度的值,得到直方图,以此表征目标区域。
与其他特征相比,HOG具备如下优点:1)对图像的几何和光学形变都能保持很好的不变性,这2种形变只会出现在更大的空间领域上;2)在粗空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。因此,HOG特征特别适合做图像中的人体检测。
HOG也有缺点:高特征维度、大量的重叠和直方图统计使得特征的计算速度慢,进而影响实时性;遮挡处理能力较差;未利用颜色、形状和纹理等特征。
1.2 基于深度学习模型的行人检测手动标注图像特征已经有了很好的表现,能够应用到很多商业领域。但是深度学习在行人检测领域的表现和潜力,显然要远远好于传统方法,因为其能对原始图像数据进行学习,通过算法提取出更好的特征。基于深度学习的行人检测方法具备极高的准确率和鲁棒性。这对于无人驾驶领域的发展有着重要意义。
Girshick等[15]于CVPR2014提出区域卷积神经网络(region-convolutional neural network,R-CNN)模型曾达到最高准确率。R-CNN引领了后期分类网络与卷积神经网络框架的发展[16],其实现步骤如图 2所示。
R-CNN的主要贡献是将卷积神经网络应用于分类中。R-CNN的核心思想是使用分类网络来得到有可能是目标的若干图像局部区域,然后把这些区域分别输入到CNN中,得到区域的特征,再在特征上加上分类器,判断特征对应的区域是属于具体某类目标还是背景。这一结构存在重复计算的问题。针对这一问题,后续又提出了快速区域卷积神经网络(Fast-RCNN)[17]、高速区域卷积神经网络(Faster-RCNN)[18]等结构加以解决。
Tian等[19]于CVPR2015改进了CNN,通过添加语义信息,提出任务辅助卷积神经网络(task-assistant convolutional neural network,TA-CNN)网络结构。其他主流方法会将行人检测作为一个二值分类问题,这种方式难以应对人和物体形态近似难以正确检测的情况,遇到这种分类对象,极易产生错误的分类结果。这在自动驾驶领域是难以承受的。针对这种情况,通过添加语义信息如行人的某些属性(背包、后背)和场景属性(车、树)等,使得网络能够识别出更丰富的类别信息。这些语义信息的加入,也使得TA-CNN在行人检测的准确率上有更好的表现。更重要的一点,TA-CNN能够协调好不同分布和收敛速度的训练样本。这极大扩展了TA-CNN的训练样本规模,对于提高准确率很有益[20]。
相比HOG等传统的特征模型,CNN模型在目标识别、检测上,具备更高的准确度。而且R-CNN、TA-CNN等一系列改进模型更是在不断提高行人检测的准确率和识别效率[21]。
2 立体匹配3-D地图重建是自动驾驶领域最重要的技术之一。主流成功的无人驾驶车辆一般采用多线雷达作为3-D传感器来实现这项技术。但是雷达设备价格高昂,且仅能识别深度信息,无法获取纹理和色彩,对周围感知不足。针对这些问题,视觉领域研究者一直尝试使用摄像头来取代雷达,进行3-D重建。
采用双目摄像头进行立体匹配,获取深度信息,是一个经典而思路清晰的方法:确定好两个摄像头的内外参后,依靠相似三角形定理,理论上可以轻易获得深度信息的结果。但是实际使用中,尤其是外景使用中,摄像头受到外界光线干扰过大,存在大量无效信息和噪声,所以其深度数值精度一直不好,一直只能作为雷达的辅助传感器。
随着深度学习的成熟和孪生网络的提出,双目摄像头的立体匹配问题也得以解决。双目系统获取深度信息的原理图如图 3所示。其中:f为双目焦距,即点P到点Pl和Pr的距离;d为视差,即点Pl和Pr在X轴方向上的差值;Z为深度距离,即点P到点Ol或Or的距离。基线b和焦距f可在双目标定时计算得出,因此双目立体视觉定位的核心内容是对视差d的计算。
视差d由立体匹配得出,具体公式如下:
$ Z = \frac{{bf}}{d}. $ | (1) |
Chopra等[23]于CVPR2005年提出了孪生深度网络原理图,如图 4所示,其特点是接受双目摄像头左边和右边的图像作为网络输入,计算2张图片的差异度,以求解照片对应场景的深度信息。其中孪生网络左右两边的卷积网络共享权值W,即设置相同的权值。但孪生深度网络进行立体匹配时识别效率低,不适用于自动驾驶动态障碍物立体匹配时的识别。
Luo等[24]于CVPR2016改进了孪生网络,使用内积层代替处理层,通过内积直接获得匹配结果,极大地提高了运算效率。处理一张图片的时间由1 min减少到1 s以内,使该技术应用到无人驾驶领域成为了现实[25]。
相比无人驾驶车辆常用的激光雷达测距,摄像头因为成本低、特征数量丰富等,随着采用孪生网络用于立体匹配的深度学习模型的提出,可以通过双目摄像头甚至单目摄像头获取物体高准确率的深度信息[26]。
3 多传感器融合深度学习的实现对传感器技术提出更高的要求,需要采用多传感器融合技术[27]。在无人驾驶车辆软件与硬件架构设计中,传感器作为数据信息的来源,重要性不言而喻。目前主流的无人驾驶车辆硬件架构中,主要采用激光雷达和摄像头作为视觉传感器。但是结合深度学习的应用与实现,无论是激光雷达还是摄像头都有其自身的优点和缺点。例如激光雷达获取距离信息十分精准,但是存在缺乏纹理、特征信息少、噪点多等问题,这非常不利于深度学习的应用;而摄像头的特点恰恰与雷达的相反。将激光雷达与摄像头等传感器融合对于无人驾驶车辆做出准确的感知和认知具有重要的意义。
针对基于深度学习的图像数据和雷达数据融合,Schlosser [28]尝试使用多种不同的组合方式融合雷达数据和图像数据来进行行人检测。其中通过采样雷达的点云信息获得密度深度图,并从中提取水平视差、距地高度、角度3种特征来从不同的角度表征3-D场景,也称为HHA(horizontal height angle)特征,如图 5所示。然后在R-CNN模型作为基础的网络结构上,将图像RGB信息作为输入网络的输入层,并尝试在网络中不同层(如不同卷积层、全连接层)中加入雷达的HHA特征图。以寻求最佳的融合网络位置。经过一系列大量的实验,得出结论:1) RGB和HHA特征融合进行学习,其准确率要高于单独的RGB输入,多传感器融合具备优越性。2)就区域卷积神经网络结构而言,不同层次融合雷达特征图对于识别结果有着较大影响。
多传感器融合技术将融入更多车载传感器的数据,在无人驾驶车辆的其他应用领域同样可以发挥重大的作用。
4 端到端控制随着深度学习的兴起,深度学习理论与技术在控制领域也产生了重大影响。基于视觉传感器的自动驾驶方案得到了发展,由传感器获取数据到车辆的方向与油门开度的端到端技术已成为现实[29]。目前存在3种主流方案,如图 6所示。
4.1 间接感知方法
这是传统也是目前主流的无人驾驶车辆驾驶方案,其核心思想是将无人驾驶问题分解为多个子问题:车道线识别、路径规划等。如通过车载传感器识别出周边场景,并对图像场景进行分割,识别出道路、交通标志、障碍物等与交通相关的对象。通过车载电脑对这些信息进行处理,并根据人为设定的逻辑方案作出决策。这种方案比较符合人类的理解,但是整个过程需要处理图像,提取跟踪目标,识别出目标状态位置等系列操作,过于复杂,而车辆控制仅仅需要速度和方向信息,所以,这种方案存在过多的冗余操作和信息。
4.2 直接感知方法这是一种理想化的方案,能够直接从雷达、摄像头、定位系统等传感器端获取必要的信息,然后输出汽车控制量如方向盘的转角和油门开度。
早在1980年代,Pomerleau试图通过采集驾驶员在驾驶过程中的图像数据和对应的方向盘转动数据,使用传统神经网络模型来获取图像数据与方向盘转角之间的映射函数[30]。在当时的硬件水平与软件水平下,结果表明这种方案无法应对复杂的交通环境。主要存在几个问题:1)每个人的驾驶习惯并不同,当遇到同样的情形时,不同人做出的反应不同,这会造成神经网络拟合的混乱。2)仅用方向盘角度变化并不是场景图片的一个合理抽象,抽象程度太低。3)因为输入的是整张图片,难以标注出图像的哪部分是与最终结果即方向盘转角是相关的。
2016年NVIDIA[31]训练了一个CNN,能从单一摄像头的原始像素中得到转向命令。通过低于100 h的人类训练数据,系统学会了在无车道线的区域行驶,甚至可以在没有清晰视觉标识符的区域如停车场行驶,并能够在晴天、多云、雨天多种天气下行驶。这证明了Pomerleau提出的端到端的方案的可行性。
4.3 行为反射方法普林斯顿大学的Chen提出深度驾驶(Deep Driving)概念[32],这是性能介于前两种方案的第三种方案,也更具备可实现性。其核心思想是从图像数据中学习到一系列定量的参数来表示道路的状态信息,比如车相对于道路的角度、车与车道线的距离等。之后根据这些参数进行车辆控制。通过无人驾驶仿真平台(the open racing car simulator,TORCS)获取数据,然后再进行路测。实验证明,无论在虚拟驾驶场景还是现实驾驶场景,其方法都能很好地适应环境。
5 结论本文主要介绍关于深度学习对于无人驾驶领域的革新和影响,包括4项无人驾驶领域核心技术最近的发展。
在行人检测领域,R-CNN将行人检测的准确性提升到了新的高度。TA-CNN的提出,通过添加语义信息,进一步提升了识别的鲁棒性和准确率,对于不同分布样本的适应方法也有利于获得更好的深度网络。
在立体匹配领域,孪生网络的提出和后续的发展,改进了曾经鲁棒性较差的传统双目测距方法。通过深度学习获取的特征向量来计算差异值,并获取深度信息,这种方法能够更好地获取图像的深度信息。
在多传感器融合领域,图像信息和雷达信息融合用于训练深度模型的结果证实了多传感器融合的优越性和传感器间优劣互补的可能性。未来将更多的传感器进行融合,会进一步提高传感器的作用。
最后,在无人驾驶车辆控制领域,间接感知方法(即将无人驾驶问题细化为多个目标识别决策的子问题)符合人类直觉,但是存在过多冗余信息和低效的处理过程。伴随深度学习的成熟,直接感知方法被提出,即从传感器数据直接映射关键的车辆控制参数来控制车辆。行为反射方法的性能则介于前两种方案。
[1] | DÖRR D, GRABENGIESSER D, GAUTERIN F. Online driving style recognition using fuzzy logic[C]//Proceedings of the 17th International Conference on Intelligent Transportation Systems (ITSC). Qingdao, China: IEEE, 2014: 1021-1026. |
[2] | DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886-893. |
[3] | WU B, NEVATIA R. Detection of multiple, partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]//Proceedings of the 10th IEEE International Conference on Computer Vision. Beijing, China: IEEE, 2005, 1: 90-97. |
[4] | GAVRILA D M. A Bayesian, exemplar-based approach to hierarchical shape matching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(8): 1408–1421. DOI:10.1109/TPAMI.2007.1062 |
[5] | MU Y D, YAN S C, LIU Y, et al. Discriminative local binary patterns for human detection in personal album[C]//Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, Alaska, USA: IEEE, 2008: 1-8. |
[6] | WANG X Y, HAN T X, YAN S C. An HOG-LBP human detector with partial occlusion handling[C]//Proceedings of the 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009: 32-39. |
[7] | TUZEL O, PORIKLI F, MEER P. Pedestrian detection via classification on Riemannian manifolds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(10): 1713–1727. DOI:10.1109/TPAMI.2008.75 |
[8] | WATANABE T, ITO S, YOKOI K. Co-occurrence histograms of oriented gradients for human detection[J]. IPSJ Transactions on Computer Vision and Applications, 2010, 2: 39–47. DOI:10.2197/ipsjtcva.2.39 |
[9] | DOLLAR P, TU Z W, PERONA P, et al. Integral channel features[C]//Proceedings of the British Machine Vision Conference. London, UK: BMVC, 2009: 1-11. |
[10] | GAO W, AI H Z, LAO S H. Adaptive Contour Features in oriented granular space for human detection and segmentation[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 1786-1793. |
[11] | LIU Y Z, SHAN S G, ZHANG W C, et al. Granularity-tunable gradients partition (GGP) descriptors for human detection[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 1255-1262. |
[12] | WU J X, GEYER C, REHG J M. Real-time human detection using contour cues[C]//Proceedings of the 2011 IEEE International Conference on Robotics and Automation. Shanghai, China: IEEE, 2011: 860-867. |
[13] | WALK S, MAJER N, SCHINDLER K, et al. New features and insights for pedestrian detection[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 1030-1037. |
[14] | PLÖCHL M, EDELMANN J. Driver models in automobile dynamics application[J]. Vehicle System Dynamics, 2007, 45(7-8): 699–741. DOI:10.1080/00423110701432482 |
[15] | GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 580-587. |
[16] | WALLACE B, GOUBRAN R, KNOEFEL F, et al. Measuring variation in driving habits between drivers[C]//Proceedings of the 2014 IEEE International Symposium on Medical Measurements and Applications. Lisboa, Portugal: IEEE, 2014: 1-6. |
[17] | GIRSHICK R. Fast R-CNN[C]//Proceedings of the 2015 IEEE International conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448. |
[18] | REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. DOI:10.1109/TPAMI.2016.2577031 |
[19] | TIAN Y L, LUO P, WANG X G, et al. Pedestrian detection aided by deep learning semantic tasks[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 5079-5087. |
[20] | LUO L H. Adaptive cruise control design with consideration of humans' driving psychology[C]//Proceedings of the 11th World Congress on Intelligent Control and Automation. Shenyang, China: IEEE, 2014: 2973-2978. |
[21] | PACHECO J E, LÓPEZ E. Monitoring driving habits through an automotive CAN network[C]//Proceedings of the 23rd International Conference on Electronics, Communications and Computing. Cholula, Mexico: IEEE, 2013: 138-143. |
[22] | MVHLMANN K, MAIER D, HESSER J, et al. Calculating dense disparity maps from color stereo images, an efficient implementation[J]. International Journal of Computer Vision, 2002, 47(1-3): 79–88. |
[23] | CHOPRA S, HADSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 539-546. |
[24] | LUO W J, SCHWING A G, URTASUN R. Efficient deep learning for stereo matching[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 5695-5703. |
[25] | BUTAKOV V, IOANNOU P. Driving autopilot with personalization feature for improved safety and comfort[C]//Proceedings of the 18th International Conference on Intelligent Transportation Systems. Las Palmas, Spain: IEEE, 2015: 387-393. |
[26] | ALJAAFREH A, ALSHABATAT N, NAJIM AL-DIN M S. Driving style recognition using fuzzy logic[C]//Proceedings of the 2012 IEEE International Conferenceon Vehicular Electronics and Safety. Istanbul, Turkey: IEEE, 2012: 460-463. |
[27] | JOHNSON D A, TRIVEDI M M. Driving style recognition using a smartphone as a sensor platform[C]//Proceedings of the 14th International IEEE Conference on Intelligent Transportation Systems. Washington, DC, USA: IEEE, 2011: 1609-1615. |
[28] | SCHLOSSER J, CHOW C K, KIRA Z. Fusing LIDAR and images for pedestrian detection using convolutional neural networks[C]//Proceedings of the2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE, 2016: 2198-2205. |
[29] | VAN LY M, MARTIN S, TRIVEDI M M. Driver classification and driving style recognition using inertial sensors[C]//Proceedings of the 2013 IEEE Intelligent Vehicles Symposium (Ⅳ). Gold Coast, QLD, Australia: IEEE, 2013: 1040-1045. |
[30] | POMERLEAU D A. ALVINN: An autonomous land vehicle in a neural network[C]//Advances in Neural Information Processing Systems. San Francisco, CA, USA: ACM, 1989: 305-313. |
[31] | BOJARSKI M, DEL TESTA D, DWORAKOWSKI D, et al. End to end learning for self-driving cars[J/OL]. (2016-04-25). http://arxiv.org/pdf/1604.07316.pdf. |
[32] | CHEN C Y, SEFF A, KORNHAUSER A, et al. DeepDriving: Learning affordance for direct perception in autonomous driving[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 2722-2730. |