基于分布式视频网络的交叉口车辆精确定位方法
杨德亮1, 2, 谢旭东1 , 李春文1, 牛小铁2    
1. 清华大学自动化系, 北京 100084;
2. 北京工业职业技术学院机电工程系, 北京 100042
摘要:为了对交叉口车辆的位置进行准确定位, 提出了一种分布式视频网络架构下车辆精确定位方法。在分布式视频网络中每处摄像机架设位置均设有2类摄像机: 近景摄像机和远景摄像机。首先在近景摄像机拍摄范围内, 对感兴趣区域内车辆进行身份识别, 根据车牌照平面与道路平面垂直的约束条件, 建立车牌照模型来对车辆精确定位; 接着在远景摄像机拍摄范围内, 采用融合局部二值模式(LBP)纹理特征的金字塔稀疏光流法实时跟踪车辆上局部特征点, 根据特征点运动趋势相似性获得稳态特征点, 来对车辆位置估计; 最后根据不同摄像机检测结果, 采用加权一致性信息融合算法来提高车辆定位精度。实验结果表明: 该方法能对交叉口车辆位置进行精确定位。
关键词车辆精确定位    分布式视频网络    加权一致性信息融合    车牌照模型    
Accurate vehicle location method at an intersection based on distributed video networks
YANG Deliang1, 2, XIE Xudong1 , Li Chunwen1, NIU Xiaotie2    
1. Department of Automation, Tsinghua University, Beijing 100084, China;
2. Department of Mechanical and Electrical Engineering, Beijing Polytechnic College, Beijing 100042, China
Abstract: A robust framework is given for precise vehicle localization in intersections using distributed video networks. Each intersection is equipped with short-range and long-range cameras in a distributed video network. If the vehicle is in the shooting range of the short-range camera, within the region of interest for vehicle identification, and the license plate is perpendicular to the road plane, a vehicle license plate model is used to accurately locate the vehicle position. If the vehicle is in the shooting range of the long-range camera, a pyramid sparse optical flow algorithm with LBP texture features is used in real-time to track the local feature points on the vehicle to estimate the vehicle position based on stable feature points obtained from the similar motions. Finally, information is exchanged between the cameras, a weighted consensus information fusion algorithm is used to obtain a globally optimal estimate of the vehicle position. Tests show that this method can accurately locate the vehicle position at intersections.
Key words: precise vehicle location    distributed video networks    weighted consensus information fusion    vehicle license plate model    

随着北京市内道路交通日益拥堵,迫切需要智能交通技术来进一步改进城市交通管理。传统交通参数检测器无法对大区域各种交通行为进行检测和分析。目前,摄像机已经覆盖了北京快速环路以及主要交叉路口,由于架设高度限制导致其视野范围有限,拍摄的交通视频图像内车辆存在严重遮挡,车辆离摄像机越远检测其位置误差越大。

用于交通视频图像内存在遮挡的车辆精确定位的主要有基于车辆模型、机器学习分类、特征匹配跟踪的定位方法等[1]。基于车辆模型的定位方法是通过建立目标车辆的三维模型,将模型投影到二维平面图像中进行匹配,找到目标的三维信息[2]。该方法计算量大、实时性差; 道路上车辆种类很多,通过有限的车辆模型进行匹配难以满足实际要求。基于机器学习分类的定位方法是采用机器学习分类器,对运动或静止车辆的头部或尾部进行检测来定位车辆[3]。该方法只能检测有限范围内的车辆,无法解决前后车辆存在严重遮挡的问题。基于特征匹配跟踪的定位方法是以目标的某个或某些稳定的特征为约束条件,建立2帧图像特征匹配对应关系[4]。该方法所选的特征容易受到周围环境和光线的干扰引起跟踪失败。

近年来,分布式传感器网络的研究和应用越来越广[5]。基于分布式估计的一致性算法[6]是控制领域研究的热点之一。该算法不需要信息处理中心,每个传感器仅与通信相连的传感器之间进行信息传递来实现信息的一致性输出。文[7]将一致性算法与Kalman滤波结合实现目标状态的一致估计。由于摄像机视野范围有限,目标可能在某个摄像机中不可见,采用文[7]的方法,目标不可见的摄像机对该目标的估计值与实际值偏差很大。文[8]提出了广义的Kalman平均一致性滤波算法来减小其偏差。文[9]进一步通过计算目标状态的最大后验估计来减少各传感器之间一致性估计误差。为了解决摄像机实际检测误差对交通波最优估计的影响,文[10]提出了加权一致性信息融合算法来提高交通波的跟踪精度。

本文充分利用大量分布在城市道路上不同用途摄像机,在增加现场视频检测器的数据处理能力和信息交互能力的基础上,引入多摄像机的网络协作机制,提出了一种分布式视频网络架构下车辆精确定位方法。可以减小单台摄像机检测误差,实现车辆实时准确地定位,生成大场景下精确的车辆轨迹时空图。有利于长期收集路网中关键路口的车辆通行行为,深入挖掘人们的出行规律,可以获取交叉口车辆延误时间[11]等信息,为交通规划和交通控制提供实时准确的交通数据。

1 系统框架

假设交叉口入口路段某2处架设的摄像机网络如图1所示,每处摄像机架设位置均设有2类摄像机: 近景摄像机和远景摄像机。图1中摄像机A和C为近景摄像机,拍摄区域20 m以内,主要对车辆身份识别和精确定位; 摄像机B和D为远景摄像机,拍摄区域100 m以上,主要对车辆粗略定位和行为分析。近景摄像机视场范围有限,在其视野范围内车辆定位精度高; 而远景摄像机视场范围广,在其视野范围内车辆定位精度低。图2为某处摄像机架设图和同一时间2类摄像机拍摄的视频图像。

图1 中道路上方网络摄像机固定架设示意图名

图2 摄像机架设图和2类摄像机拍摄的图像

根据图2中不同摄像机拍摄区域范围和视频中车辆运动特点,对不同摄像机检测的车辆定位结果进行分布式摄像机间信息融合,有利于提高车辆定位精度。同时可以生成大场景中精确的车辆轨迹时空图,用于交叉口车辆驾驶行为分析和车辆延误时间计算[11]等。系统处理流程如图3所示。

图3 系统处理流程图

相比其他车辆定位方法,基于车辆模型的定位方法可以获取精确的车辆定位结果,但是该方法计算量大、实时性差,通过有限车辆模型匹配难以满足实际要求。本文一方面考虑对车辆身份识别的需要,采用车牌照识别法[12]和多级时空描述图[13],对近景摄像机内车辆身份识别和车辆长度检测; 另一方面根据摄像机内外参数、车牌照平面与道路平面垂直的约束条件建立车牌照模型,来对车辆精确定位。

在远景摄像机内车辆遮挡严重,利用车辆模型可以得到鲁棒的跟踪结果,该方法同样计算量大、实时性差,并且当车辆颜色不明显或夜间光线比较暗时也会影响检测结果。基于车辆上局部特征点跟踪可以解决车辆部分遮挡,而特征点容易受到周围环境干扰引起跟踪失败。考虑实际应用的需要,本文采用融合局部二值模式(LBP)纹理特征[14]的金字塔稀疏光流法[15]实时跟踪车辆上局部特征点,根据摄像机内外参数和车辆刚体运动特性,采用特征点运动趋势相似性获得稳态特征点,来估计车辆位置。

多摄像机协作一般采用集中式处理可以提高车辆定位精度,而集中式处理增加了网络拓扑复杂性、通信网络带宽和中心服务器负载压力。文[5]中提出的有关分布式算法没有考虑实际应用中出现的问题,其处理结果对车辆定位精度误差很大。本文根据不同摄像机拍摄区域范围,对不同摄像机检测车辆定位结果进行加权一致性信息融合来提高车辆定位精度。

2 车辆精确定位 2.1 近景摄像机对车辆精确定位

国标GA36-2007[16]规定: 常见的车牌照宽度为440 mm,如图4a所示,车牌照安装横向水平,纵向基本垂直于地面。根据识别出来的车牌照宽度已知,以及车牌照平面与道路平面垂直的约束条件,采用文[17]提出的方法来建立车牌照模型,如图4b所示。在建立的车牌照模型中,设车牌照平面与道路平面垂直相交线为AB,平行于车牌照上沿横向水平线。设车牌照垂直投影到AB线上为MN线段,因此,车牌照上沿中心点C的铅垂线CD到道路平面相交点D也在MN线段上。在识别出车牌照的图像中,首先根据车牌照自身宽度和高度已知来估计点D的位置; 再根据车辆长度和点D的道路坐标,来确定车辆中心点在道路坐标系的精确位置。

图4 车牌照尺寸和模型
2.2 远景摄像机对车辆位置估计

车辆在道路上行驶中,对车辆上局部特征点跟踪能反应该车辆的运动轨迹信息。在图1的近景摄像机与远景摄像机重叠区域以及远景摄像机之间的握手区域内,在车辆候选区域内添加特征点,与已有特征点不重叠,相对均匀分布,采用金字塔稀疏光流法(KLT)实时跟踪已有的和新增的特征点。由于道路环境比较复杂,特征点很容易受到干扰引起跟踪失败。对位置发生变化的特征点,在相邻图像间分别以该特征点为中心的小窗口模版,采用LBP纹理特征直方图进行匹配,来剔除可能发生漂移的特征点,保留匹配成功的特征点。

由于车辆是刚性物体,运动中同一车辆上的特征点的运动轨迹是相似的,不同车辆上的特征点的时空特性可能不同[4]。假设在远景摄像机中跟踪车辆上的所有特征点都在车牌照平面上,该平面与道路平面垂直并相交于图4b中AB直线,因此所有特征点垂直投影到道路平面上都落在两平面垂直相交直线AB上。然而并不是所有特征点都在车牌照平面上,例如图5a中车辆上4个特征点S、 T、 U、 V分别投影到图像平面和车牌照平面上的4个点为s、 t、 u、 v和S′、 T′、 U′、 V′,需要对这些稀疏特征点进行分组,区分点U和V为稳态特征点,点S和T为非稳态特征点,也就是需要排除不在车牌照平面上的非稳态特征点S和T。

图5 跟踪特征点对车辆位置估计

根据离线标定的摄像机参数、相同车辆上的特征点与车牌照区域相对位置不变以及特征点运动趋势相似性,采用文[4]提出的铅垂线投影识别法来区分稳态和非稳态特征点。通过对稳态特征点的跟踪实现对车辆连续稳定的跟踪,来估计车辆位置,图5b为稳态特征点跟踪定位车辆的示意图,点D为车辆位置估计点。根据车辆长度和点D的道路坐标,来确定车辆中心点在道路坐标系的估计位置。

2.3 分布式摄像机间信息融合

根据各摄像机拍摄图像对车辆定位结果的影响,在通信相连的分布式摄像机之间信息交互基础上,动态估计并调整各摄像机检测结果的权重,采用文[10]提出的加权一致性信息融合方法来提高车辆跟踪精度。图6为时刻t摄像机i中通过加权一致性信息融合的车辆位置跟踪流程图,下面将对该处理流程进行简要描述。

图6 摄像机i中加权一致性信息融合的车辆位置跟踪流程图

步骤1 设被跟踪车辆位置与车速构成的向量称为车辆状态,x(t)=d(t) v(t)T表示时刻t车辆实际状态,这里d(t)表示车辆位置,v(t)为其速度。对于当前摄像机i(i=1,2,…,n),设i(t)和${\hat{x}}$i(t)分别表示时刻t被跟踪车辆的预测状态和最优估计状态。

步骤2 摄像机i采用Kalman滤波通过上一时刻预测得到时刻t被跟踪车辆的状态预测值i(t),以其作为初始值,获取该摄像机可视区域内被跟踪车辆的位置测量值zi(t)。根据针孔成像模型,计算车辆与摄像机距离的远近引起的定位误差,采用协方差传递理论[18]来估计测量噪声权重wi(t)。

步骤3 根据i(t)和信息矩阵i(t)以及zi(t)和wi(t),来计算一致性算法所需传递的信息变量。同时,通过动态调整摄像机检测结果的可信度ai,可以使得所有摄像机估计的车辆位置更加接近于实际值。当摄像机i拍摄的图像中没有检测到被跟踪车辆时,设置其可信度ai=0,否则ai=1。

步骤4 对于时刻t摄像机i来说,其加权一致性信息融合步骤为:

1) 计算一致性信息向量si0和一致性信息矩阵Si0的初值:

si0=i(t)i(t)+HTBi(t)zi(t), Si0=i(t)+HTBi(t)H.
其中: H为观测矩阵,Bi(t)为加权测量信息矩阵。

2) 根据一致性协议进行第k步迭代处理得到sik和Sik

sik=sik-1+ε$\sum\limits_{j\in {{N}_{i}}}{{}}$aj/ai+aj(sjk-1-sik-1), Sik=Sik-1+ε$\sum\limits_{j\in {{N}_{i}}}{{}}$aj/ai+aj(Sjk-1-Sik-1).
其中: j为可向摄像机i传递信息的通信相连摄像机标号,ε为一致性协议增益,Ni为可向摄像机i传递信息的摄像机j标号的集合。

3) 第k步迭代处理时接收aj、 sjk-1和Sjk-1,同时向相连摄像机发送相应信息。

4) 当迭代处理达到要求的精度或者最大迭代步数时即停止。

5) 获得时刻t车辆最优估计状态${\hat{x}}$i(t)和最优信息矩阵${\hat{W}}$i(t)的近似值:

${\hat{x}}$i=$\underset{k\to \infty }{\mathop{\lim }}\,$(Sik)-1sik, ${\hat{W}}$i=$\underset{k\to \infty }{\mathop{\lim }}\,$ik.

步骤5 在摄像机i中得到${\hat{x}}$i(t),实现对车辆位置的鲁棒跟踪,同时根据${\hat{x}}$i(t)和${\hat{W}}$i(t),采用Kalman滤波对时刻(t+1)的车辆状态进行预测,用于对时刻(t+1)车辆位置的检测。

3 实验结果 3.1 实验数据

模拟城市道路交通环境搭建的实验场所见图7,东西道路为单车道可以双向行驶,南北道路为双车道进行分开行驶。2条道路上共架设有3台近景摄像机(图中第1、 3和5)和2台远景摄像机(图中第2和4),5台摄像机采用[1-2,2-3,2-4, 4-5]的通信连接方式。所有摄像机共拍摄了145 min视频图像用于测试,每台摄像机拍摄的帧频为每秒25帧,3台近景摄像机内每帧图像大小为1 920×1 080像素,2台远景摄像机内每帧图像大小为960×540像素。实验测试车携带载波相位差分技术(RTK)高精度导航仪,在行驶过程中获取采样频率为5 Hz的行驶轨迹作为真实数据,用于各摄像机检测结果的数据比对。

图7 实验场所
3.2 检测结果统计分析

下面选取某时间段一辆车从东边道路进入、 从北边道路出去的视频,各摄像机检测车辆定位结果的对比分析如图8所示。

图8 某时间段车辆定位结果对比图

图8a为3台近景摄像机单独检测结果与真实数据的对比图,图8b为2台远景摄像机单独检测结果与真实数据的对比图。从图8a和8b可以看出: 1) 各摄像机拍摄范围有限,每台摄像机无法单独对被跟踪车辆进行连续完整地跟踪定位; 2) 近景摄像机3和5的视场范围小,在其视野范围内车辆定位精度高; 3) 车辆没有经过近景摄像机1的视野范围,该摄像机内没有输出检测结果; 4) 远景摄像机2和4视场范围广,在其视野范围内车辆定位精度低,并且车辆离摄像机越远其定位精度越低。

图8c为5台摄像机经过加权一致性信息融合后车辆定位结果与真实数据的对比图。可以看出: 1) 每台摄像机经过信息融合后,可以对被跟踪车辆进行连续完整的跟踪定位; 2) 信息融合后车辆定位结果与真实数据非常接近。

对5台摄像机共拍摄的145 min视频图像的检测结果进行统计分析,各摄像机单独检测结果、信息融合后结果与真实数据的平均误差和有效区域的统计如表1所示。其中: 平均误差是指同一时刻各摄像机单独检测结果与真实数据之间的距离误差的平均统计值,有效区域是指摄像机沿着道路方向跟踪到车辆的有效区域范围。可以看出,信息融合后的结果更加接近于真实数据。

表1 车辆定位结果的平均误差和有效范围对比表
摄像机 平均误差/m 有效区域/m
摄像机1 0.89 15.43
摄像机2 8.27 73.35
摄像机3 0.85 14.22
摄像机4 7.48 63.42
摄像机5 0.92 18.69
信息融合 5.63 136.77
4 结 论

为了对道路上车辆进行有效管理和准确定位,本文提出了一种分布式视频网络架构下车辆精确定位方法。首先在近景摄像机内,采用车牌照识别方法,对进入视野范围感兴趣区域内的车辆进行身份识别,根据车牌照平面与道路平面垂直的约束条件,建立车牌照模型来对车辆精确定位; 接着在远景摄像机内,采用融合LBP纹理特征的金字塔稀疏光流法实时跟踪车辆上局部特征点,根据车辆刚体运动特性,采用特征点运动趋势相似性获得稳态特征点,来对车辆位置估计; 最后对不同摄像机检测结果,采用加权一致性信息融合来提高车辆定位精度。

实验结果表明该方法在分布式视频网络中能对车辆位置进行精确定位。下一步将通过更多不同环境下的交通视频进行测试,进一步完善各摄像机检测方法和信息融合方法,使车辆定位结果更加准确。

参考文献
[1] Buch N, Velastin S A, Orwell J. A review of computer vision techniques for the analysis of urban traffic[J]. IEEE Transactions on Intelligent Transportation Systems, 2011, 12(3):920-939.
[2] Ghosh N, Bhanu B. Incremental unsupervised three-dimensional vehicle model learning from video[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(2):423-440.
[3] Chang W C, Cho C W. Online boosting for vehicle detection[J]. IEEE Transactions on Systems, Man and Cybernetics, Part B:Cybernetics. 2010, 40(3):892-902.
[4] Kanhere N K, Birchfield S T. Real-time incremental segmentation and tracking of vehicles at low camera angles using stable features[J]. IEEE Transactions on Intelligent Transportation Systems. 2008, 9(1):148-160.
[5] Bhanu B, Ravishankar C V, Roy-Chowdhury A K, et al. Distributed Video Sensor Networks[M]. London, UK:Springer London, 2011.
[6] Olfati-Saber R, Fax J A, Murray R M. Consensus and cooperation in networked multi-agent systems[J]. In Proceedings of the IEEE, 2007, 95(1):215-233.
[7] Olfati-Saber R. Kalman-consensus filter:optimality, stability, and performance[C]//In IEEE Conference on Decision and Control. Shanghai, China:IEEE Press, 2009:7036-7042.
[8] Kamal A T, Ding C, Song B, et al. A generalized kalman consensus filter for wide area video networks[C]//In IEEE Conference on Decision and Control. Orlando, FL, USA:IEEE Press, 2011:7863-7869.
[9] Kamal A T, Farrell J A, Roy-Chowdhury A K. Information weighted consensus filters and their application in distributed camera networks[J]. IEEE Transactions on Automatic Control, 2013, 58(12):3112-3125.
[10] Yang D L, Chen Y Z, Xin L, et al. Real-time detecting and tracking of traffic shockwaves based on weighted consensus information fusion in distributed video network[J]. IET Intelligent Transport Systems. 2014, 8(4):377-387.
[11] Hofleitner A, Herring R, Bayen A. Arterial travel time forecast with streaming data:a hybrid approach of flow modeling and machine learning[J]. Transportation Research Part B, 2012, 46(9):1097-1122.
[12] Du S, Ibrahim M, Shehata M, et al. Automatic license plate recognition (ALPR):a state-of-the-art review[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(2):311-325.
[13] Mithun N C, Rashid N U, Rahman S M M. Detection and classification of vehicles from video using multiple time-spatial images[J]. IEEE Transactions on Intelligent Transportation Systems. 2012,13(3):1215-1225.
[14] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002,24(7):971-987.
[15] Shi J, Tomasi C. Good features to track[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Seattle:IEEE Press, 1994:593-600.
[16] GA36-2007. 中华人民共和国机动车号牌[S]. 北京:中华人民共和国公安部, 2007. GA36-2007. License plate of motor vehicle of the People's Republic of China[S].Beijing:the ministry of public security of the People's Republic of China, 2007. (in Chinese)
[17] 杨德亮, 谢旭东, 李春文, 等. 基于车牌照模型的大地坐标系下车辆精确定位[J]. 清华大学学报(自然科学版), 2014,54(12):1566-1572. YANG Deliang, XIE Xudong, LI Chunwen, et al. Precise vehicle location under geodetic coordinate based on vehicle license plate model[J]. Journal of Tsinghua University, 2014,54(12):1566-1572. (in Chinese)
[18] Kay S M. Fundamentals of Statistical Signal Processing, Volume I:Estimation Theory[M]. Upper Saddle River, NJ, USA:Prentice Hall, 1993.