2. 中国科学院 计算技术研究所, 北京 100190;
3. 厦门大学 信息工程学院, 厦门 361005;
4. 中国科学院 深圳先进技术研究院, 深圳 518055
2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
3. School of Information Science and Engineering, Xiamen University, Xiamen 361005, China;
4. Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055, China
随着计算机视觉技术及视频识别相关产业的蓬勃发展,人机交互及智能安防理论已经成为国家科技发展战略方向。视觉行为识别作为“虚拟现实技术”及“智能感知技术”的前沿课题,是智能监控领域较高级的应用,它是以运动目标检测和跟踪、轨迹分析等基础课题为前提和基础的,有一定挑战性的视频处理技术[1]。在机器人导航、智能安防等领域,由于姿势变化、物体形变、光照变化、相机运动、目标遮挡等因素的综合影响,如何设计和实现一个鲁棒性强、实时性好的行为识别算法,仍然是有待研究的课题[2]。已有的研究已经证实,压缩感知算法可以有效地克服目标遮挡、形变和物体相似及光照变化、目标快速运动导致的运动模糊等干扰,因此,基于压缩感知算法的视频行为识别在相关领域有较高的研究价值[3]。
目前国内外学者应用压缩感知识别视频行为的研究主要侧重于基于智能穿戴设备的识别技术,并取得了阶段性理论成果。基于无线传感器的人体行为识别作为人工智能与物联网的新兴交叉研究领域得到了广泛重视[4]。传感器行为识别主要采用机器学习和模式识别方法,其中传感器行为分类问题可借助压缩感知和稀疏表示理论加以解决,而多传感器行为识别问题的实时性主要采用基于并行处理架构的结果融合方法[5]。相比基于视觉的人体行为识别方法,智能穿戴设备在特定的应用领域具有设备复杂性小、受外界环境干扰小、空间自由性大等优点,但同时也存在着一些无法避免的技术难题。由于其复杂的硬件系统,基于可穿戴设备的行为识别应用场景受到限制[6]。
迄今为止,基于视觉压缩感知的行为识别研究还十分有限,主要局限于手势识别和表情识别,导致行为识别在应用场景层次的扩展方面甚为迟缓[6-7]。本文将试图提出一种局部压缩感知算法,并应用于视频全局目标行为和局部目标行为的识别,有效实现算法应用场景层次的扩展。
1 算法思想传统的采样算法多是基于Nyquist采样定理进行高速采样,采样过程中产生了庞大的数据。为了降低存储或者传输成本,采样后得到的大部分数据都被丢弃了,造成了采样资源的严重浪费。现有压缩感知理论的主要思想便是利用信号的稀疏特性,采样的同时进行数据的压缩,通过求解凸优化问题就可以实现信号的精确重构。虽然压缩感知有广泛的应用前景,但是也涉及到许多重要的数学理论[8]。本文将结合质心定位,将压缩感知的思想简化为局部压缩感知。
压缩感知算法的中心思想是信号的压缩和重构。因此,信号的稀疏表示是压缩感知理论应用的基础和前提,只有选择合适的基表示信号,才能保证信号的稀疏度,从而就能保证信号的恢复精度。假设有一组视频信号f(f∈RN),长度为N,基向量为Ψi(i=1, 2, …, N),对信号进行变换:
$ f = \sum\limits_{i = 1}^N {{a_i}{\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}_i}} \;\;\;\;或\;\;\;\;{\rm{ }}f = \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}\alpha . $ |
其中:f是信号在时域的表示,α是信号在Ψ域的表示。若α只有K个是非零值(N≫K)或仅经排序后按指数级衰减并趋近于零,可认为信号是稀疏的。近年来对稀疏表示研究的一个热点是信号在冗余字典下的稀疏分解,即如何构造适合某类信号的冗余字典并实现快速有效的稀疏分解[9]。
假设信号满足稀疏表示的性质,那么用一个与变换矩阵不相关的M×N(M≪N)测量矩阵ϕ对信号进行线性投影,得到线性测量值y:
$ y = {\mathit{\boldsymbol{\phi}}} f. $ |
如果信号f是可稀疏表示的,上式可表示为
$y = {\mathit{\boldsymbol{\phi}}}f = \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}\mathit{\Phi }\alpha =\mathit{\boldsymbol{ \boldsymbol{\varTheta} }}\alpha. $ |
其中,Θ是一个M×N矩阵。那么如果Θ满足有限等距性质(restricted isometry property,RIP),则K个系数能够从M个测量值准确重构[10]。
上述的求解是一个NP-HARD问题,求解条件的设定在一定程度上限制了压缩感知的应用场景和易于识别的视频行为类型。同时在不同应用场景,信息冗余程度的差异和识别精度的要求,往往导致稀疏表示后的信号仍然存在一定的冗余[11]。本文提出局部压缩感知思想,预先设定兴趣区域做质心定位,将压缩跟踪简化为局部压缩跟踪,用最直接的方法进一步减少稀疏表示后α的信息冗余。
2 识别原理首先在预先设定兴趣区域做质心定位,在(p+q)时刻的矩形兴趣区域图像f(x,y)的质心为
$ {{M}_{pq}}=\iint{{{x}^{p}}{{y}^{q}}f\left( x, y \right)\text{d}\mathit{x}\text{d}\mathit{y}}, \ \ \ \left( p, q=0, 1, 2, \cdots \right). $ |
令p=q=0,得到图像f(x,y)的质量为
$ {{M}_{00}}=\iint{f\left( x, y \right)\text{d}\mathit{x}\text{d}\mathit{y}}. $ |
假设p+q=1,初始时刻f(x,y)质心坐标为[12]
$ x=\frac{{{M}_{10}}}{{{M}_{00}}}, \ \ \ \ y=\frac{{{M}_{01}}}{{{M}_{00}}}. $ |
真实应用场景下可采用离散的坐标表示[13]:
$ \begin{align} &{{x}_{\text{c}}}=\frac{\sum\limits_{ij}{{{x}_{i}}{{I}_{ij}}{{W}_{ij}}}}{\sum\limits_{ij}{{{I}_{ij}}{{W}_{ij}}}}, \ \ \ \ \ \ y_{\text{c}}^{*}=\frac{\sum\limits_{ij}{{{y}_{ij}}{{W}_{ij}}}}{\sum\limits_{ij}{{{I}_{ij}}{{W}_{ij}}}}, \\ &\ \ \ \ \ {{d}_{ij}}=\frac{1}{\sqrt{{{({{x}_{i}}-{{x}_{\text{c}}})}^{2}}+{{({{y}_{j}}-{{y}_{\text{c}}})}^{2}}}}. \\ \end{align} $ |
其中:(xi, yj)和(xc, yc)分别为质心坐标和当前像元坐标;Iij是当前帧的像素值,i=0,1,2,…,j=0,1,2,….
分别用m、n表示i、j方向上的像元数量,用g(i, j)表示(i, j)位置的像素值,i=0,1,2,…,j=0,1,2,…,质心坐标进一步表达为
$ \begin{align} &x=\frac{\sum\limits_{j=1}^{n}{\sum\limits_{i=1}^{m}{g\left( i, j \right)\times i}}}{\sum\limits_{j=1}^{n}{\sum\limits_{i=1}^{m}{g\left( i, j \right)}}}\text{ }, \\ &y=\frac{\sum\limits_{j=1}^{n}{\sum\limits_{i=1}^{m}{g\left( i, j \right)\times i}}}{\sum\limits_{j=1}^{n}{\sum\limits_{i=1}^{m}{g\left( i, j \right)}}}. \\ \end{align} $ |
局部压缩感知识别视频目标行为的主要原理是基于对兴趣区域的压缩跟踪得到质心的轨迹和方向,进而实现对全局目标行为识别,并扩展应用到视频局部目标行为的识别。作为首次尝试,本文采用质心方向、运动速度和地面距离等参数[14]。
1) 质心方向:
$ \begin{align} &\ \ \ ~\mathit{\bar{l}}=\left( {{x}_{i+1}}-{{x}_{i}}, {{y}_{j+1}}-{{y}_{j}} \right), \\ &i=0, 1, 2, \cdots, j=0, 1, 2, \cdots . \\ \end{align} $ |
2) 运动速度:
$ \begin{align} &v=\sqrt{{{\left( {{x}_{i+1}}-{{x}_{i}} \right)}^{2}}+{{\left( {{y}_{j+1}}-{{y}_{j}} \right)}^{2}}}, \\ &i=0, 1, 2, \cdots, j=0, 1, 2, \cdots . \\ \end{align} $ |
3) 地面距离:
$ \mathit{h}-{{\mathit{y}}_{\mathit{i}}}, \ \ \ j=0, 1, 2, \cdots . $ |
其中,h是整个图像帧的高度.
由于环境变化、摄像机运动等外界因素的影响,必要时可辅助进行平滑处理。
3 实验结果采用戴尔工作站(Dell,Precision 5510),借助MATLAB R2014a,本文提出的局部压缩感知思想识别视频目标行为的实验框架如图 1所示,作为初步尝试考虑了一些特殊全局目标行为(如奔跑、跌倒等)和局部目标行为(如微笑、眨眼等)的识别不同于已有的研究,这里的目标行为完全通过上述3个质心参数描述,综合采用质心定位和压缩跟踪的结果完成目标行为的理解和识别。
由于本文预先设定了目标兴趣区域,不仅可以进一步减少信息的冗余,保证实时性,同时由于跟踪的是质心,也很好地解决了某些特定问题(例如,目标遮挡和目标运动引起的模糊)。如图 2所示,质心方向、运动速度和地面距离(即图像帧中的参考距离)等相关参数可轻易提取。奔跑、跌倒、跳跃等视频全局目标行为的识别结果如图 3所示,识别精度和实时性较好。
当最大程度上缩小预先设定的目标兴趣区域,例如设定兴趣区域为眼睛、嘴唇等,就可以进行眨眼、微笑等视频目标局部行为的识别(识别结果也可以用来描述面部表情的变化)。如图 4所示,这种情况下仍然可以轻易提取质心方向、运动速度和地面距离(即图像帧中的参考距离)等相关参数,并进行必要的平滑处理。而眨眼、微笑、点头、摇头等局部目标行为的识别结果如图 5所示,识别精度仍然较好,但实时性与全局目标行为的识别相比有所不足,主要原因是此时的兴趣区域太小,质心运动幅度也太小,相关参数的精确提取耗费了更多的时间。
4 讨论分析
传统的信号处理,首先按照Nyquist采样定理对信号进行采样,然后大部分采样数据将会被抛弃, 这并不是一种高效的信号处理方式。其实大部分信号是稀疏的或是可压缩的。现有压缩感知算法采用稀疏表示实现压缩,而本文提出局部压缩感知主要是通过目标兴趣区域选择减少信息冗余。换言之,局部压缩感知是采用缩小压缩跟踪范围的方法进一步降低对视频信号进行采样的成本[14]。
锁定目标兴趣区域之后,本文采用的局部压缩感知思想在数学原理上延续了现有压缩感知算法,即利用信号的稀疏性或可压缩性依次完成稀疏表示、编码测量和信号重构,并在此过程中始终保证从少量的非适应线性测量中就能精确有效地实现信号重构[1-5]。其中,目标兴趣区域的选择是局部压缩感知算法应用的基础和前提,只有选择合适的兴趣区域才能保证压缩跟踪的有效性,从而保证了行为识别的精度。这个兴趣区域的大小取决于行为层次和行为类型,因此,可以根据不同的行为识别需求设定一个最适合该行为特性的矩形区域[6-7]。
从压缩感知到局部压缩感知,稀疏表示的范围被缩小,势必也可以减少编码测量的工作量并提高其测量效率。因为是对目标的局部进行压缩感知,不仅更容易构造出一个平稳的、与变换基不相关的观测矩阵,而且在更小的观测范围内更加容易保证稀疏向量在对输入信号降维时重要信息不遭破坏[12]。感知范围的缩小也更容易确保从观测矩阵中抽取的各列向量构成的矩阵是非奇异的(保证观测矩阵不会把2个不同的稀疏信号映射到同一个采样集合中),进而实现对信号的完全重构[8-11]。
即便是锁定目标兴趣区域之后,这仍然是一个比较难的课题,虽然适当缩小压缩跟踪的范围可以在一定程度上减少问题的不确定性,但是对于任何稳定的重构算法是否存在一个真实的确定性的观测矩阵仍然有待进一步研究[15]。已有的研究虽然已证实观测矩阵的随机不相关特性是正确恢复信号的充分条件,但随机不相关特性是否是最优恢复信号的必要条件仍然是有待研究的课题。此外,如何实现目标兴趣区域的智能设定,如何量化目标兴趣区域的设定规则与恢复性能间的关系,如何在目标兴趣区域范围内衡量观测矩阵的不相干特性,仍然是压缩感知应用中尚未解决的问题[16]。
5 结论压缩感知理论是对传统信号处理的补充和完善,在目标跟踪、机器人导航等领域已取得阶段性成果。本文提出的局部压缩感知理论的基本思想是通过设定目标兴趣区域减少压缩跟踪的工作量,提高了计算的速度,且易于实现对视频目标行为的识别,可推动压缩感知理论中部分应用问题的解决,因此具有一定探索意义和研究价值。
[1] | KUMAR M, BHATNAGAR C. Crowd behavior recognition using hybrid tracking model and genetic algorithm enabled neural network[J]. International Journal of Computational Intelligence Systems, 2017, 10(1): 234–246. DOI:10.2991/ijcis.2017.10.1.16 |
[2] | DEVANNE M, BERRETTI S, PALA P, et al. Motion segment decomposition of RGB-D sequences for human behavior understanding[J]. Pattern Recognition, 2017, 61: 222–233. DOI:10.1016/j.patcog.2016.07.041 |
[3] | WANG Y, CHEN H, LI S, et al. Object tracking by color distribution fields with adaptive hierarchical structure[J]. Visual Computer, 2017, 33(2): 1–13. |
[4] | CHEN Y, SHEN C. Performance analysis of smartphone-sensor behavior for human activity recognition[J]. IEEE Access, 2017, 5(3): 3095–3110. |
[5] | BATCHULUUN G, KIM J H, HONG H G, et al. Fuzzy system based human behavior recognition by combining behavior prediction and recognition[J]. Expert Systems with Applications, 2017, 81(9): 108–133. |
[6] | VAN V K, WASHINGTON G. Development of a wearable controller for gesture-recognition-based applications using polyvinylidene fluoride[J]. IEEE Transactions on Biomedical Circuits & Systems, 2017, 11(4): 900–909. |
[7] | ARABLOUEI R. Fast reconstruction algorithm for perturbed compressive sensing based on total least-squares and proximal splitting[J]. Signal Processing, 2017, 130(1): 57–63. |
[8] | DING X, CHEN W, WASSELL I J. Compressive sensing reconstruction for video:An adaptive approach based on motion estimation[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2017, 27(7): 1406–1420. |
[9] | LAUE H E A. Demystifying compressive sensing[J]. IEEE Signal Processing Magazine, 2017, 34(4): 171–176. DOI:10.1109/MSP.2017.2693649 |
[10] | LIU T, QIU T, DAI R, et al. Nonlinear regression A*OMP for compressive sensing signal reconstruction[J]. Digital Signal Processing, 2017, 69: 11–21. DOI:10.1016/j.dsp.2017.06.004 |
[11] | JIANG H, DENG W, SHEN Z. Surveillance video processing using compressive sensing[J]. Inverse Problems & Imaging, 2017, 6(2): 201–214. |
[12] | KITAMURA T, IZUMI K, NAKAJIMA K, et al. Microlensed image centroid motions by an exotic lens object with negative convergence or negative mass[J]. Physical Review D, 2014, 89(8): 1–2. |
[13] | CAMPANA R, MASSARO E, BERNIERI E, et al. Application of the MST clustering to the high energy, γ-ray sky. Ⅰ-New possible detection of high-energy, γ-ray emission associated with BL Lac objects[J]. Astrophysics and Space Science, 2015, 360(2): 1–10. |
[14] | MINGHU W U, ZHU X. Distributed video compressive sensing reconstruction by adaptive PCA sparse basis and nonlocal similarity[J]. Ksii Transactions on Internet & Information Systems, 2014, 8(8): 2851–2865. |
[15] | GU Y, GOODMAN N A. Information-theoretic compressive sensing kernel optimization and Bayesian Cramér-Rao bound for time delay estimation[J]. IEEE Transactions on Signal Processing, 2017, 65(17): 4525–4537. DOI:10.1109/TSP.2017.2706187 |
[16] | HEGDE C, INDYK P, SCHMIDT L. Approximation algorithms for model-based compressive sensing[J]. IEEE Transactions on Information Theory, 2015, 61(9): 5129–5147. DOI:10.1109/TIT.2015.2457939 |