监控视频异常检测:综述
王志国, 章毓晋    
清华大学 电子工程系, 图像工程实验室, 北京 100084
摘要:监控视频在社会安全领域具有重要应用。该文对经典和新兴的监控视频异常检测算法进行分类和总结。首先,依据算法的3个属性,算法的发展阶段、算法的模型类型、算法的异常判别标准,将算法分类并逐类概述。然后,将不同类别的算法进行关联对比,分析不同模型的优缺点以及聚类判别与重构判别在不同发展阶段的特点。最后,提炼了领域内常用的模型假设与相关知识、汇总了不同算法的异常检测效果,并对未来的研究方向进行了探讨和展望。
关键词监控视频    异常检测    深度学习    机器学习    算法对比    
Anomaly detection in surveillance videos: A survey
WANG Zhiguo, ZHANG Yujin    
Image Engineering Laboratory, Department of Electronic Engineering, Tsinghua University, Beijing 100084, China
Abstract: Surveillance videos are important for maintaining social welfare. This paper classifies and summarizes the traditional and advanced video anomaly detection algorithms. First, the algorithms are classified into different classes according to their development stages, model categories and detection criteria and then they are summarized by class. Then, the advantages and the disadvantages of the different algorithms are identified by comparing the algorithms belonging to different classes. This paper specifically analyses the characteristics of the cluster criterion and the reconstruction criterion in different development stages. Finally, this paper identifies the commonly used model assumptions and the domain knowledge and summarizes the accuracies of the various algorithms. Future research directions are also discussed.
Key words: surveillance video    anomaly detection    deep learning    machine learning    algorithm comparison    

视频监控在安防、智能家居、病人监护等领域具有重要应用。随着监控摄像机价格的降低,其应用越来越广泛,这些监控摄像机产生了大量的监控视频,为异常检测带来了巨大的工作量。

异常检测的任务是用一个仅包含正常样本的训练数据集X={x1, x2, …, xn}训练一个正常模型,然后将测试集中不符合正常模型的样本判断为异常。

监控视频异常检测主要面临以下挑战:1)异常事件定义的模糊性。正常样本与异常样本之间没有明确的划分边界[1]。2)异常事件定义的场景依赖性[2-3]。同一事件在不同的场景下具有不同的异常属性。3)异常事件的稀少性、多样性、不可穷举性[4]。4)训练样本中包含噪声[1-2], 给样本信息带来干扰。5)由于数据的隐私性,目前可用的公开数据集较少。异常样本的稀少性、不可穷举性限制了有监督算法在该领域的应用,因此本文综述的算法以半监督、无监督算法为主。

目前,监控视频异常检测领域主要有以下综述文献[5-9]:文[5]介绍了针对人类行为的异常检测算法,覆盖了2011年以前的相关算法,将算法划分为聚类法、动态Bayes法和主题模型法3类。文[6]综述了2013年以前的视频异常检测算法,将算法粗分为基于视觉的算法和基于物理模型的算法。基于视觉的算法又被进一步细分为5类:隐Markov模型(hidden Markov model, HMM)、混合动态纹理(mixture of dynamic texture, MDT)、词袋模型(bag-of-words, BOW)、稀疏编码(sparse coding, SC)方法和流形方法。基于物理模型的算法被进一步划分为3类:光流场模型、社会力学模型和拥挤能量模型。文[7]综述了基于轨迹的异常检测算法。文[8]综述了端到端的深度学习异常检测算法,将算法划分为3类:基于重构的算法、基于预测的算法和基于生成的算法。文[9]对网络异常、医疗数据异常、监控视频异常等多个领域的基于深度学习的异常检测算法进行了全面综述,但是对监控视频的异常检测算法的介绍较为简略。

以上的文献综述存在以下不足:1)文献覆盖不全面,每篇综述仅覆盖了一个发展阶段的文献。2)不同综述对不同发展阶段的算法采用不同的算法分类策略,不利于不同阶段算法间的关联对比分析。3)没有汇总已有算法的异常检测效果,没有提炼该领域常用模型的约束假设。

针对以上不足,本文对监控视频异常检测领域的算法进行全面综述,注重将不同算法进行关联对比分析:

1) 全面综述该领域的算法,并依据算法的发展阶段、算法的模型类型、算法的异常判别标准对算法进行3级分类。

2) 将不同类别的算法进行关联对比分析,分析了不同算法模型的优缺点以及聚类判别与重构判别在不同发展阶段的特点。

3) 提炼了该领域常用的模型假设与相关知识,汇总分析了不同算法的异常检测效果。

本文首先提出3级算法分类策略,然后逐类概述相关算法。通过对比分析不同算法模型、不同算法判别的优缺点,提炼该领域的常用知识。最后,介绍该领域的相关数据集、评估标准,并汇总不同算法的效果,对未来的研究方向进行探讨和展望。

1 算法分类与概述 1.1 算法分类策略

异常检测的过程可划分为3个步骤[4, 10]:特征提取、模型训练和异常判断。

本小节依据算法的发展阶段、算法的模型类型、算法的异常判断标准将算法进行3级分类,分类框架如图 1所示。

图 1 本文算法分类框架

第1级分类 按照算法的发展阶段,将算法划分为3类:传统机器学习方法(traditional machine learning, T)、传统机器学习与深度学习的混合方法(hybrid, H)、深度学习方法(deep learning, D)。在传统机器学习方法阶段,算法主要利用手工特征构建特征空间,然后用传统机器学习方法检测异常。在混合方法阶段,算法用深度特征代替手工特征构建特征空间,然后用传统机器学习方法检测异常。在深度学习阶段,算法使用端到端的神经网络模型检测异常。

第2级分类 根据算法模型的输入,将算法模型划分为4类:点模型(point model, P)、序列模型(sequence model, S)、图模型(graph model, G)、复合模型(composite model, C)。点模型的基本输入单元是单个时空块。序列模型的基本输入单元是一个连续的时空块序列。图模型的基本输入是一组相互关联的时空块。复合模型是以上3种模型的复合。

第3级分类 根据算法在异常判断阶段的判断准则,将每类模型的算法进一步细分。不同模型有不同的细分结果,具体如下:

1) 点模型。点模型算法存在5种异常判断准则:聚类判别(cluster, cl)、共发判别(co-occurrence, co)、重构判别(reconstitution, re)、联合判别(unite, un)与其他判别(other, ot)。

(1) 聚类判别。算法根据特征空间的分布判断异常,将远离聚类中心的点、属于小聚类的点或分布概率密度低的点判断为异常。该判别在各个发展阶段均有应用。

(2) 共发判别。算法根据测试样本与正常样本共同出现的概率(共发概率)判断异常,将共发概率低的样本判断为异常。该判别主要在传统机器学习方法阶段使用。

(3) 重构判别。算法用低维子空间/流形拟合正常样本特征空间的分布,通过将测试样本向正常样本子空间/流形投影计算重构误差,进而根据重构误差的大小判断测试样本是否服从正常样本的分布并判断异常。该判别在各个发展阶段均有应用。

(4) 联合判别。以上3种判别联合使用。

(5) 其他判别。其他判别主要包括假设检验判别[11-12]与语义分析判别[13]等。该类判别主要出现在传统机器学习方法和混合方法阶段中。

2) 序列模型。序列模型中主要有两种异常判断准则:生成概率判别(generate, ge)和预测误差判别(predict, pr)。

(1) 生成概率判别[14]。算法根据输入序列生成一个概率值,描述该输入序列服从正常序列转移规律的程度。算法将生成概率值低的样本判断为异常。该判别主要在传统机器学习方法阶段使用。

(2) 预测误差判别[15]。模型根据输入序列预测序列在下一时刻的特征,根据预测误差判断该输入序列服从正常转移规律的程度。算法将预测误差大的样本判断为异常。该判别主要在深度学习方法阶段使用。

3) 图模型。图模型有两种异常判断方式:图推断判别(inference, in)和图结构判别(structure, st)。图模型目前主要在传统机器学习方法阶段使用。

(1) 图推断判别[16]。依据图上的特征点之间的推断关系判断异常,将不符合正常推断关系的特征点判断为异常。

(2) 图结构判别[17-18]。根据图的拓扑结构检测异常,将不常见的拓扑结构判断为异常。

1.2 传统机器学习方法

在传统机器学习方法阶段,常用的手工特征有:方向梯度直方图(histogram of oriented gradients, HOG)[6]、光流直方图(histogram of optical flow, HOF)[6]、3D梯度[6]、局部二值模式(local binary pattern, LBP)[19]、轨迹等。

1.2.1 点模型

1) 聚类判别。

聚类判别算法首先将正常样本聚类,然后将测试集中远离聚类中心的点、属于小聚类的点判断为异常。常用的聚类算法有:k-means[20]k-medoids[5]、模糊c-means[5]、Gauss混合模型(Gaussian mixed model, GMM)[21]。常用的判断异常的方式有:测试样本到聚类中心的距离[22]、一类支持向量机(one-class support vector machine, OC-SVM)[23]k最近邻(k-nearest neighbors, KNN)[24]与核密度估计(kernel density estimation, KDE)[25]

2) 共发判别。

共发判别算法主要基于主题模型检测异常。算法首先将正常样本划分为若干主题,然后将不属于任何正常主题的样本判断为异常。常用的主题模型算法是隐Dirichlet分配(latent Dirichlet allocation, LDA)[26-29]与层次Dirichlet过程(hierarchical Dirichlet processes, HDP)[30-31]。文[26-29]分别使用不同的特征结合LDA检测异常。HDP常与其他模型复合使用[30-31]

3) 重构判别。

在传统机器学习方法中,基于重构判别的算法主要有两种:主成分分析(principal components analysis, PCA)法[32-34]与SC法[35-40]。它们的思路是:正常样本存在公共因子,使得正常样本可由这些公共因子重构,而异常样本则不能。从特征空间的角度看,它们都是用低维子空间来拟合正常样本在特征空间的分布。不同的是,PCA法用一个单一的低维子空间描述正常样本的分布,SC法通过一个过完备的字典与稀疏约束,用多个低维子空间的并集描述正常样本的分布。

PCA法相关的文献主要有文[32-34]。这些研究通过对PCA的改进提升了算法对噪声的鲁棒性。

与PCA法相比,SC法获得了更多的关注[35-40]。文[35]通过对编码系数的非负约束提高了算法对噪声的鲁棒性。文[36-37]对SC添加了时域平滑性约束,令时域近邻的时空块具有相似的编码系数,使SC法结合更多的时域信息。文[38]通过构建时空近邻特征的关联矩阵,使SC法结合更多的时空信息。文[39-40]根据字典中单词参与正常样本重构的频次对单词进行加权。文[41-42]通过将字典划分为多个子字典来提升算法的运算速度。

4) 其他判别。

文[11]用假设检测的策略检测异常,不需要在正常样本上训练,而直接在测试集上训练并检测异常。该算法首先打乱视频帧的顺序,并假设打乱后的帧序列的前半段视频帧是正常帧,后半段视频帧是异常帧,然后在此基础上训练一个逻辑回归(logistic regression, LR)分类器,为每一视频帧计算一个异常分值。通过多次打乱、多次训练LR分类器、多次为视频帧打分,每一视频帧可以得到多个异常分值,最后取同一视频帧的多个异常分值的均值作为该帧最终的异常分值。

1.2.2 序列模型

在传统机器学习方法中,用于异常检测的序列模型主要是MDT[43-44]与HMM[45-48],它们的判别都是生成概率判别。主要相关文献及算法如下:

MDT算法[43-44]K个线性动态系统(linear dynamic system, LDS)组成,用以捕捉正常样本的K种特征转移规律,当测试样本不符合其中任何一个特征转移规律时,将其判断为异常。

文[45]用无限HMM(infinite HMM, iHMM)模型结合Markov链Monte Carlo(Markov chain Monte Carlo, MCMC)采样或者变分Bayes公式来检测异常。文[46]用多观测HMM(multi-observation HMM, MOHMM)算法检测异常。文[47]将多个时空近邻的HMM进行耦合,构建耦合HMM(coupled HMM, CHMM),使算法结合了更多的时空关联信息。文[48]将多个HMM集成检测异常。

1.2.3 图模型

图模型算法利用时空块之间的关联关系检测异常。

1) 图推断判别。

图推断判别算法主要利用Markov随机场(Markov random field, MRF)检测异常。文[16]提取视频时空块的混合概率PCA(mixture of probabilistic PCA, MPPCA)特征构建MRF模型,然后基于节点与节点间的推断关系检测异常。

2) 图结构判别。

图结构判别将图的拓扑结构作为一种新的特征检测异常。文[17]将时空近邻的特征点相连接构建图结构,然后将图的拓扑结构映射到低维流形中,在低维流形中检测异常。文[18]用视频中时空近邻的兴趣点构建图结构,以图的拓扑结构作为新的特征,通过构建图结构相似性算子实现图结构的聚类从而检测异常。

1.2.4 复合模型

传统机器学习方法中的复合模型主要是将点模型与序列模型结合,使算法既能检测样本的分布异常,又能检测样本的转移规律异常。文[48-50]将LDA与HMM结合。文[30]将HDP与HMM、OC-SVM结合。文[31]将HDP与Gauss过程(Gaussian process, GP)、HMM算法结合。文[51]将SVM与HMM结合。

1.3 混合方法

深度特征比手工特征具有更强的描述能力。在混合方法阶段,算法使用深度特征代替手工特征,然后用传统机器学习方法检测异常。在该发展阶段,得到发展的模型主要是点模型,应用的判别主要是聚类判别、重构判别和其他判别。

1) 聚类判别。

在使用聚类判别的算法中,常用的提取深度特征的神经网络主要有:自编码器(autoencoder, AE)[52]、赢者通吃自编码器(winner-take-all AE, WTA-AE)[53]、堆叠降噪自编码器(stacked denoising AE, SDAE)[54-55]、目标检测神经网络[25]以及其他预训练的卷积神经网络(convolutional neural network, CNN)[3, 56-61]。在异常判断阶段常用的方法有:Gauss分类器[58-61]、KDE[25]、OC-SVM[3, 53-56]、最近邻(nearest neighbor, 1-NN)[25, 57]等。

文[58-61]将深度特征与Gauss分类器结合组成一个弱分类器,然后通过将多个弱分类器串联来增强算法的异常检测能力。文[54-55]将表观信息与运动信息分离,分别使用SDAE提取特征,然后用OC-SVM检测异常,最后综合考虑多个通道的异常判断结果判断异常。文[25]用预训练的多任务目标检测神经网络提取特征,然后用OC-SVM检测异常。在检测到异常后,算法根据特征中隐含的语义信息生成对异常的描述。文[62]将手工特征与PCA网络(PCA network, PCANet)、深度GMM结合,依据深度GMM得到的概率密度判断异常。

2) 重构判别。

混合方法中的重构判别算法主要利用SC法。文[63]用变分AE(variational autoencoder, VAE)提取特征,然后用SC法检测异常。文[64]将3D卷积(3D convolutional, C3D)网络与SC构成一个循环框架,通过不断地循环优化, 使C3D网络提取更适用于SC异常检测的特征,最后用SC法判断异常。文[65]用C3D提取特征,然后结合近邻传播聚类(affinity propagation clustering, AP)算法构建字典,最后基于SC的重构误差判断异常。

3) 其他判别。

混合方法的其他判别主要有两种:假设检验策略和语义分析策略。

文[12]用假设检验策略检测异常,对应的算法被称为揭露法。算法令S1、S2代表两个相邻的时域滑动窗,并假设S1内的视频帧为正常、S2内的视频帧为异常,通过重复迭代以下过程获得分类准确率曲线:(1)训练二分类器,计算分类准确率;(2)去除可分性最好的特征分量。如果随着可分性最好的特征分量的去除,二者的分类准确率一直维持较高水平,说明二者的可分性高,证明假设成立。

文[13]基于对目标状态的分析检测异常,主要应用于高速公路的监控场景。算法首先用预训练的目标检测神经网络检测道路上的车辆目标,然后根据目标的动、静状态及运动轨迹分析目标是否存在特定类型的异常,如车辆停止、加速等。

1.4 深度学习方法

在深度学习方法阶段,算法将特征提取步骤与模型训练步骤结合到一起,用端到端的方法检测异常。

1.4.1 点模型

1) 聚类判别。

深度学习方法中的聚类算法主要有:自组织映射(self-organizing map, SOM)[66]、生长的神经气(growing neural gas, GNG)[67]、Gauss混合全卷积VAE(Gaussian mixture fully convolutional VAE, GMFC-VAE)[68]、一类神经网络(one-class neural network, OC-NN)[69]。其中:SOM[66]、GNG[67]通过训练将不同样本映射到不同聚类实现端到端的聚类;GMFC-VAE[68]通过变分的方式,用GMM拟合特征空间的分布;OC-NN[69]是一种针对异常检测的神经网络,该算法将正常样本映射到一个超球体内、异常样本映射到超球体外,通过不断收缩超球体来增强网络的异常检测能力。

2) 重构判别。

深度学习方法中的重构判别算法认为正常样本在样本空间服从一个流形分布,并通过模型训练学习该流形分布,使服从该流形分布的样本能较好重构,从而判断重构误差大的样本不服从流形分布、是异常样本。相关的重构判别算法主要有:AE[70-75]、VAE[76]、U-Net[77-78]、生成对抗网络(generative adversarial network, GAN)[79-83]、受限Boltzmann机(restricted Boltzmann machine, RBM)[84]

文[70]用卷积AE(convolutional AE, CAE)的重构误差检测异常。文[73]对CAE进行改进,提出了鲁棒CAE(robust CAE, RCAE),增强了算法对噪声的鲁棒性。文[71]用稀疏AE检测异常,根据重构误差与编码的稀疏程度判断异常。文[72]通过让异常样本参与训练,用对抗AE(adversarial AE, AAE)的重构误差检测异常。

CAE只能捕捉空间结构信息,不能捕获时域信息。针对这个缺点,文[74]用3D卷积AE(3D convolutional AE, C3D-AE)计算视频时空块的重构误差。在此基础上,文[75]用双解码分支的C3D-AE检测异常,其中一个解码分支用于重构当前输入的时空块,另外一个分支用于预测下一时刻的时空块。

U-Net通过跳跃连接减少降维带来的信息损失,可以得到比AE更好的重构效果。文[4]用U-Net预测下一时刻的视频帧并根据重构误差判断异常。文[77-78]用U-Net的网络结构,实现视频帧与光流图的跨模态重构,然后利用跨模态的重构误差判断异常。文[85]在文[78]的基础上,用预训练的SDAE提取视频帧与光流图的多层次的深度特征,然后在每个层次的特征上用跨模态重构算法[78]检测异常,最后综合利用多个层次特征的生成误差检测异常。

GAN网络通过对抗训练,可以提升生成器的生成效果。文[79-80]将CAE与GAN结合,利用GAN的判别器提升CAE的重构能力,在异常判别时综合考虑CAE的像素强度损失与GAN的判别器损失检测异常。文[81]用双向GAN(bidirectional GAN, BiGAN)[86]执行异常检测,用像素强度损失与判别器损失判断异常。文[82]设计了编码-重构-再编码的网络结构,并与GAN结合,综合考虑了视频帧的像素强度损失、GAN的判别器损失与再编码器的编码损失来检测异常。文[83]训练了一个GAN网络,通过固定GAN的网络参数,反向寻找测试样本在隐空间中对应的特征向量,然后以该特征向量作为GAN网络的输入,重构输入样本,根据重构图像的像素强度损失判断异常。

3) 联合判别。

将聚类判别与重构判别联合使用可以获得更好的异常检测效果。文[76]提出一种将2个VAE串联的异常检测算法:算法首先将测试样本输入第1个VAE网络,基于聚类判别滤除明显正常的样本;然后将剩余的样本输入第2个VAE网络,基于重构误差检测异常。

1.4.2 序列模型

在深度学习方法中,常用的序列模型主要是循环神经网络(recurrent neural network, RNN)和长短期记忆(long short-term memory, LSTM)网络,常用的异常判别主要是预测误差判别。

文[15]先用稀疏AE提取图像块的特征,然后用RNN模型预测下一时刻的特征,根据预测误差检测异常。文[36]利用监控视频的时间连贯性约束,设计了一种堆叠RNN(stacked RNN, sRNN),基于sRNN的预测误差检测异常。

文[87]提出一种将LSTM与AE结合的视频帧预测方法,先将视频的表观信息与运动信息分离,然后用双分支的LSTM-AE的一个分支对运动信息建模、预测下一时刻的光流编码,另一个分支用AE对表观信息编码,最后将两个分支的编码串联,经过一个解码器来预测下一帧,从而实现视频帧的预测。文[88]提出一种时空对抗生成网络(spatio-temporal adversarial network, STAN),该算法将LSTM-AE与C3D、GAN结合,用LSTM-AE预测视频帧序列的中间帧,然后基于像素强度损失和C3D的判别器损失判断异常。

1.4.3 复合模型

将点模型与序列模型复合可以使算法同时捕获样本在样本空间的分布异常与转移规律异常。

文[89-90]用LSTM-AE重构输入序列,在用AE拟合样本分布的同时,用LSTM捕捉样本的转移规律。文[91-92]在文[89-90]的基础上进行改进,使LSTM的每一时刻有两个输出,其中一个输出是对当前时刻输入的重构,另外一个输出是对下一时刻[91]的预测或对上一时刻[92]输入的重构。最后,基于对当前输入的重构误差判断异常。

2 算法对比分析 2.1 模型对比分析

不同模型的算法在异常检测中有不同的侧重点,本小节归纳了不同模型的特点,如表 1所示。

表 1 模型对比分析
模型分类 优点 缺点
点模型 利用特征空间中的分布信息,检测特征点的分布异常 1)没有体现特征点间的时空关联关系;
2)不能检测特征点的时序异常
序列模型 利用特征点间的转移规律,检测特征点的时序异常 1)没有利用特征空间的分布信息;
2)在时空信息中仅利用了时间信息,没有利用空间关联信息
图模型 利用特征点间的时空关联关系,检测特征点间的时空关联异常 1)没有利用特征空间的分布信息;
2)只能对近邻时空的时空块建模,无法对长时间的特征转移规律建模

表 1的对比分析可以发现,不同模型对时空信息的利用程度不同,且依据异常事件的不同属性检测异常。因此,不同模型在异常检测上具有互补性,可以通过将不同模型相结合来提升算法的异常检测效果。

2.2 判别对比分析

聚类判别与重构判别在各个发展阶段均得到了关注,本小节分析了它们在不同发展阶段的特点, 具体见表 2

表 2 不同发展阶段的聚类判别与重构判别的对比分析
在不同发展
阶段的相同点
在不同发展
阶段的不同点
共同缺点
聚类
判别
都是通过聚类描述特征空间的分布 应用特征不同;实现聚类的方法不同 特征未针对异常检测任务进行优化
重构
判别
用低维子空间/流形来描述正常样本的分布;通过向子空间/流形投影,利用重构误差判断样本是否属于正常样本子空间/流形 传统机器学习方法是用低维子空间来描述正常样本在特征空间中的分布,投影算子是线性函数;深度学习方法是用低维流形来描述正常样本在样本空间中的分布,投影算子是非线性函数 学习到的低维子空间/流形相对于正常样本的真实分布存在冗余,落在冗余区的异常样本会被误判

针对聚类判别的缺点,文[69]利用的OC-NN是一种有效的解决方案。

在重构判别中,由于训练得到的子空间/流形存在冗余,因此如何在子空间/流形上进一步约束正常样本分布是一个需要解决的问题。

2.3 模型约束假设汇总

为提升异常检测效果,许多算法结合相关知识提出了模型约束假设,本小节将主要的模型约束假设汇总如下:

1) 虚警假设[3]:认为训练样本中存在一定比例的虚警,通过在算法中排除虚警的干扰,可以提升算法的效果。

2) 噪声假设[54-55]:认为图像或特征数据中存在噪声,通过在算法设计中考虑噪声滤除操作,可以提升算法效果。

3) 时间连贯性假设[36-37]:认为视频特征沿时间轴是连续变化的,时域上相邻的两帧的特征应该具有相似性,在异常属性上也应该具有连贯性[93]。在SC法中,这种时间连贯性体现为特征编码的稀疏一致性、非零系数分布的一致性[42]

4) 编码系数非负约束[35]:在重构判别中,样本应该能够由公共因子加权和重构,当把编码系数约束为非负时,可以取得更好的效果。

5) 隐含信息约束[4, 78]:在重构判别中,仅基于像素强度损失描述重构误差不能完全反映重构效果,可以用图像的隐含信息对重构效果作进一步约束,如对抗损失[4]、梯度损失[4]或运动损失[4]等。

6) 跨模态[77-78]重构:通过跨模态重构可以使网络学习更有用的信息。

3 常用数据集与评估标准

本节主要介绍监控视频异常检测领域中常用的数据集与评估标准。

3.1 常用数据集

监控视频异常检测数据集主要有4个:

1) UCSD数据集[43]包含Ped1、Ped2两个子数据集。数据集中的异常事件包括:汽车、骑自行车、滑滑板、踩踏草坪等。其中Ped1数据集存在错误标注[85],文[85]提供了更正后的标注。

2) CUHK Avenue数据集[41]中的异常事件主要包括:跑、扔纸、扔书包、自行车等。

3) Subway数据集[94]包含地铁站入口(Subway entrance)和地铁站出口(Subway exit)两个视频,异常事件主要包括:错误的方向、逃票、徘徊等。

4) UMN(http://mha.cs.umn.edu/Movies/Crowd-Activity-All.avi)数据集共包含3个场景,每个场景的异常事件之前都有一个短暂的正常事件。

3.2 评估标准

异常检测效果的评估标准主要有2种:1)接收器操作特性曲线(receiver operating characteristic curve, ROC)及其对应的曲线下面积(area under the curve, AUC),2)等错误率(equal error rate, EER)。其中AUC评估标准有两个层次:帧级(pixel level)标准和像素级(frame level)标准。帧级标准以帧为单位判断异常检测的正确性,只须判断帧中是否包含异常,无须对异常的空间位置准确定位。像素级标准需要对异常事件发生的空间位置准确定位,当检测出的异常区域与真实的异常区域有40%的重合时,判断为检测成功。

对于EER评估标准,最近的一些文献[11-12]认为,由于异常事件在现实生活中十分稀少,正常事件与异常事件存在严重的样本不均衡,因此用EER作为指标会在实际应用中产生误导。

3.3 算法效果对比

表 3汇总了不同算法在不同公共数据集、不同评估标准上的异常检测效果。

表 3 算法效果对比
分类索引 文献 方法描述 AUC-ROC/%
P1
(p/f)
P2
(p/f)
A
(p/f)
S1
(f)
S2
(f)
U
(f)
T-P-cl [24] KNN /92.7 98.5
T-P-cl [20] k-means 64.9/ 81.5/ 96.13
T-P-co [29] 鼠笼-LBP,LDA /83.7 90.4 98.5
T-P-re [39] SC,单词加权 48.7/ 98.01
T-P-re [41] SC,150帧/s 63.8/91.8
T-P-re [42] SC,行为字典,系数分布 56.17/70.69
T-P-re [38] SC,结构化字典 71.6/93.2
T-P-re [35] SC,非负约束 99.7
T-P-re [95] k-means,SC /87.2 /89.1 93
T-P-ot [11] 多次打乱,假设检验 /89.58 69.13 82.36 91
T-S-ge [44] MDT 89.7 90.8 99.5
T-G-st [17] Laplace流形 97.7
H-P-cl [53] WTA-AE,OC-SVM 68.7/91.9 89.3/96.6 /82.1
H-P-cl [55] SDAE,OC-SVM 67.2/92.1 /90.8
H-P-cl [25] 多任务FRCN,OC-SVM 89.1/92.2
H-P-cl [60] 级联,稀疏AE,Gauss /93.2 /93.9 99.6
H-P-cl [3] 正常聚类收缩 94.3/91.1 93.5 95.1 99.3
H-P-cl [96] CNN 64.5/95.7 /88.4 98.8
H-P-cl [62] PCANet,深度GMM 69.9/92.5 /75.4
H-P-re [63] VAE特征,SC 64.1/90.2 /89.1
H-P-ot [12] 揭露法 52.4/68.4 /82.2 93/80.6 70.6 85.7 95.1
D-P-cl [67] GNG 65.11/93.75 /94.09 99.65
D-P-cl [68] GMFC-VAE 71.4/94.9 78.2/92.2 /83.4
D-P-re [70] CAE /81.0 /90.0 /70.2 94.3 80.7
D-P-re [80] CAE+GAN 99.6
D-P-re [78] U-Net,跨通道生成 70.8/ 96.8 /95.5 99
D-P-re [85] 多层次特征,跨通道生成 66.60/82.34 97.22/99.21 52.82/71.54
D-P-re [4] U-Net,跨模态约束,GAN /83.1 /95.4 /85.1
D-P-re [75] C3D-AE /92.3 /91.2 /80.9
D-P-re [84] RBM 48.87/70.25 72.05/86.43 56.08/78.76
D-P-un [76] 双VAE串联 94.25/ /87.6 99.81
D-S-pr [36] sRNN /92.21 /81.71
D-S-pr [88] STAN /82.1 /96.5 /87.2
D-C [90] LSTM-AE /89.9 -87.4 /80.3 84.7 94
D-C [92] 多输出的LSTM-AE /75.5 /88.1 /77 93.3 87.7
  注:P1代表Ped1,P2代表Ped2,A代表Avenue,S1代表Subway entrance,S2代表Subway exit,U代表UMN,p代表pixel-level,f代表frame-level。表格中空白处表示没有相关实验数据,粗体表示算法在对应数据集、对应评估标准上取得目前最优效果。

通过效果对比可以得到以下结论:1)目前没有一种算法在所有数据集、所有指标上都取得最优效果。2)目前效果最优的算法主要出现在深度学习方法及混合方法中,体现了深度学习方法在异常检测中的优势。3)在混合方法中,通过将手工特征换成深度特征,传统机器学习算法在个别数据集上仍能取得目前最优效果,说明通过改善应用特征,传统机器学习异常检测算法仍具有竞争力。

4 总结与展望

本文对监控视频异常检测进行了全面而层次化的文献综述。通过文献综述可以得到以下结论:1)深度学习方法得益于强大的学习能力,取得了当前最优检测效果,是未来的主要发展方向;2)传统机器学习方法通过长时间的发展,探索了许多监控视频异常检测的相关知识,这些知识在领域内具有通用性,有待迁移应用到深度学习方法中取得更好的效果;3)目前,该领域中可用的公共数据集较少,需要更多的数据集支撑研究的进展。

参考文献
[1]
CHANDOLA V, BANERJEE A, KUMAR V. Anomaly detection:A survey[J]. ACM Computing Surveys, 2009, 41(3): 15.
[2]
CHONG Y S, TAY Y H. Modeling representation of videos for anomaly detection using deep learning: A review[Z/OL]. arXiv: 1505.00523, 2015.
[3]
IONESCU R T, SMEUREANU S, POPESCU M, et al. Detecting abnormal events in video using narrowed normality clusters[C]//Proceedings of 2019 IEEE Winter Conference on Applications of Computer Vision. Hawaii, USA, 2019: 1951-1960.
[4]
LIU W, LUO W X, LIAN D Z, et al. Future frame prediction for anomaly detection: A new baseline[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 6536-6545.
[5]
POPOOLA O P, WANG K J. Video-based abnormal human behavior recognition:A review[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2012, 42(6): 865-878.
[6]
LI T, CHANG H, WANG M, et al. Crowded scene analysis:A survey[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(3): 367-386.
[7]
AHMED S A, DOGRA D P, KAR S, et al. Trajectory-based surveillance analysis:A survey[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(7): 1985-1997.
[8]
KIRAN B R, THOMAS D M, PARAKKAL R. An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos[J]. Journal of Imaging, 2018, 4(2): 36.
[9]
CHALAPATHY R, CHAWLA S. Deep learning for anomaly detection: A survey[Z/OL]. arXiv: 1901.03407, 2019.
[10]
CHENG K W, CHEN Y T, FANG W H. Video anomaly detection and localization using hierarchical feature representation and Gaussian process regression[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 2909-2917.
[11]
DEL GIORNO A, ANDREW BAGNELL J, HEBERT M. A discriminative framework for anomaly detection in large videos[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 334-349.
[12]
IONESCU R T, SMEUREANU S, ALEXE B, et al. Unmasking the abnormal events in video[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2914-2922.
[13]
XU Y, OUYANG X, CHENG Y, et al. Dual-mode vehicle motion pattern learning for high performance road traffic anomaly detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, USA, 2018: 145-152.
[14]
CAI Y F, WANG H, CHEN X B, et al. Trajectory-based anomalous behaviour detection for intelligent traffic surveillance[J]. IET Intelligent Transport Systems, 2015, 9(8): 810-816.
[15]
ZHOU X G, ZHANG L Q. Abnormal event detection using recurrent neural network[C]//Proceedings of 2015 International Conference on Computer Science and Applications. Wuhan, China, 2015: 222-226.
[16]
KIM J, GRAUMAN K. Observe locally, infer globally: A space-time MRF for detecting abnormal activities with incremental updates[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 2921-2928.
[17]
THIDA M, ENG H L, REMAGNINO P. Laplacian eigenmap with temporal constraints for local abnormality detection in crowded scenes[J]. IEEE Transactions on Cybernetics, 2013, 43(6): 2147-2156.
[18]
SINGH D, KRISHNA MOHAN C. Graph formulation of video activities for abnormal activity recognition[J]. Pattern Recognition, 2017, 65: 265-272.
[19]
XU J X, DENMAN S, SRIDHARAN S, et al. Dynamic texture reconstruction from sparse codes for unusual event detection in crowded scenes[C]//Proceedings of 2011 Joint ACM Workshop on Modeling and Representing Events. Scottsdale, USA, 2011: 25-30.
[20]
LEE D G, SUK H I, PARK S K, et al. Motion influence map for unusual human activity detection and localization in crowded scenes[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(10): 1612-1623.
[21]
LEYVA R, SANCHEZ V, LI C T. Fast detection of abnormal events in videos with binary features[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada, 2018: 1318-1322.
[22]
黄鑫, 肖世德, 宋波. 监控视频中的车辆异常行为检测[J]. 计算机系统应用, 2018, 27(2): 125-131.
HUANG X, XIAO S D, SONG B. Detection of vehicle's abnormal behaviors in surveillance video[J]. Computer Systems & Applications, 2018, 27(2): 125-131. (in Chinese)
[23]
YIN J, YANG Q, PAN J J. Sensor-based abnormal human-activity detection[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(8): 1082-1090.
[24]
SALIGRAMA V, CHEN Z. Video anomaly detection based on local statistical aggregates[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA, 2012: 2112-2119.
[25]
HINAMI R, MEI T, SATOH S. Joint detection and recounting of abnormal events by learning deep generic knowledge[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 3639-3647.
[26]
MEHRAN R, OYAMA A, SHAH M. Abnormal crowd behavior detection using social force model[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 935-942.
[27]
HASSNER T, ITCHER Y, KLIPER-GROSS O. Violent flows: Real-time detection of violent crowd behavior[C]//Proceedings of 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, USA, 2012: 1-6.
[28]
MOHAMMADI S, PERINA A, KIANI H, et al. Angry crowds: Detecting violent events in videos[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 3-18.
[29]
HU X, HUANG Y P, GAO X M, et al. Squirrel-cage local binary pattern and its application in video anomaly detection[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(4): 1007-1022.
[30]
HU D H, ZHANG X X, YIN J, et al. Abnormal activity recognition based on HDP-HMM models[C]//Proceedings of the 21st International Jont Conference on Artifical Intelligence. Pasadena, USA: Morgan Kaufmann Publishers, 2009: 1715-1720.
[31]
YANG M Y, LIAO W T, CAO Y P, et al. Video event recognition and anomaly detection by combining Gaussian process and hierarchical Dirichlet process models[J]. Photogrammetric Engineering & Remote Sensing, 2018, 84(4): 203-214.
[32]
CANDÉS E, LI X D, MA Y, et al. Robust principal component analysis?: Recovering low-rank matrices from sparse errors[C]//Proceedings of 2010 IEEE Sensor Array and Multichannel Signal Processing Workshop. Jerusalem, Israel, 2010: 201-204.
[33]
XIONG L, CHEN X, SCHNEIDER J. Direct robust matrix factorizatoin for anomaly detection[C]//Proceedings of the 2011 IEEE 11th International Conference on Data Mining. Vancouver, Canada, 2011: 844-853.
[34]
DEBRUYNE M, VERDONCK T. Robust kernel principal component analysis and classification[J]. Advances in Data Analysis and Classification, 2010, 4(2-3): 151-167.
[35]
ZHU X B, LIU J, WANG J Q, et al. Sparse representation for robust abnormality detection in crowded scenes[J]. Pattern Recognition, 2014, 47(5): 1791-1799.
[36]
LUO W X, LIU W, GAO S H. A revisit of sparse coding based anomaly detection in stacked RNN framework[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 341-349.
[37]
ZHAO B, LI F F, XING E P. Online detection of unusual events in videos via dynamic sparse coding[C]//Proceedings of CVPR 2011. Providence, USA, 2011: 3313-3320.
[38]
YUAN Y, FENG Y C, LU X Q. Structured dictionary learning for abnormal event detection in crowded scenes[J]. Pattern Recognition, 2018, 73: 99-110.
[39]
CONG Y, YUAN J S, LIU J. Abnormal event detection in crowded scenes using sparse representation[J]. Pattern Recognition, 2013, 46(7): 1851-1864.
[40]
CONG Y, YUAN J S, LIU J. Sparse reconstruction cost for abnormal event detection[C]//Proceedings of CVPR 2011. Providence, USA, 2011: 3449-3456.
[41]
LU C W, SHI J P, JIA J Y. Abnormal event detection at 150 FPS in MATLAB[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia, 2013: 2720-2727.
[42]
REN H M, LIU W F, OLSEN S I, et al. Unsupervised behavior-specific dictionary learning for abnormal event detection[C]//Proceedings of 2015 British Machine Vision Conference. Swansea, UK: BMVA Press, 2015: 28.1-28.13.
[43]
MAHADEVAN V, LI W X, BHALODIA V, et al. Anomaly detection in crowded scenes[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 1975-1981.
[44]
LI W X, MAHADEVAN V, VASCONCELOS N. Anomaly detection and localization in crowded scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(1): 18-32.
[45]
PRUTEANU-MALINICI I, CARIN L. Infinite hidden Markov models for unusual-event detection in video[J]. IEEE Transactions on Image Processing, 2008, 17(5): 811-822.
[46]
XIANG T, GONG S G. Incremental and adaptive abnormal behaviour detection[J]. Computer Vision and Image Understanding, 2008, 111(1): 59-73.
[47]
KRATZ L, KO N. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 1446-1453.
[48]
WANG B, YE M, LI X, et al. Abnormal crowd behavior detection using high-frequency and spatio-temporal features[J]. Machine Vision and Applications, 2012, 23(3): 501-511.
[49]
HOSPEDALES T, GONG S G, XIANG T. A Markov clustering topic model for mining behaviour in video[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto, Japan, 2009: 1165-1172.
[50]
SONG L, JIANG F, SHI Z K, et al. Toward dynamic scene understanding by hierarchical motion pattern mining[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(3): 1273-1285.
[51]
李娟, 张冰怡, 冯志勇, 等. 基于隐马尔可夫模型的视频异常场景检测[J]. 计算机工程与科学, 2017, 39(7): 1300-1308.
LI J, ZHANG B Y, FENG Z Y, et al. Anomaly detection based on hidden Markov model in videos[J]. Computer Engineering and Science, 2017, 39(7): 1300-1308. (in Chinese)
[52]
QIAO M N, WANG T, LI J K, et al. Abnormal event detection based on deep autoencoder fusing optical flow[C]//Proceedings of the 2017 36th Chinese Control Conference. Dalian, China, 2017: 11098-11103.
[53]
TRAN H, HOGG D C. Anomaly detection using a convolutional winner-take-all autoencoder[C]//Proceedings of British Machine Vision Conference 2017. London, UK, 2017.
[54]
XU D, RICCI E, YAN Y, et al. Learning deep representations of appearance and motion for anomalous event detection[Z/OL]. arXiv: 1510.01553, 2015.
[55]
XU D, YAN Y, RICCI E, et al. Detecting anomalous events in videos by learning deep representations of appearance and motion[J]. Computer Vision and Image Understanding, 2017, 156: 117-127.
[56]
SMEUREANU S, IONESCU R T, POPESCU M, et al. Deep appearance features for abnormal behavior detection in video[C]//Proceedings of the 19th International Conference on Image Analysis and Processing. Catania, Italy, 2017: 779-789.
[57]
NAZARE T S, DE MELLO R F, PONTI M A. Are pre-trained CNNs good feature extractors for anomaly detection in surveillance videos?[Z/OL]. arXiv: 1811.08495, 2018.
[58]
SABOKROU M, FATHY M, HOSEINI M, et al. Real-time anomaly detection and localization in crowded scenes[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, USA, 2015: 56-62.
[59]
SABOKROU M, FAYYAZ M, FATHY M, et al. Deep-cascade:Cascading 3D deep neural networks for fast anomaly detection and localization in crowded scenes[J]. IEEE Transactions on Image Processing, 2017, 26(4): 1992-2004.
[60]
SABOKROU M, FATHY M, MOAYED Z, et al. Fast and accurate detection and localization of abnormal behavior in crowded scenes[J]. Machine Vision and Applications, 2017, 28(8): 965-985.
[61]
SABOKROU M, FAYYAZ M, FATHY M, et al. Deep-anomaly:Fully convolutional neural network for fast anomaly detection in crowded scenes[J]. Computer Vision and Image Understanding, 2018, 172: 88-97.
[62]
FENG Y C, YUAN Y, LU X Q. Learning deep event models for crowd anomaly detection[J]. Neurocomputing, 2017, 219: 548-556.
[63]
SUN J Y, WANG X Z, XIONG N X, et al. Learning sparse representation with variational auto-encoder for anomaly detection[J]. IEEE Access, 2018, 6: 33353-33361.
[64]
CHU W Q, XUE H Y, YAO C W, et al. Sparse coding guided spatiotemporal feature learning for abnormal event detection in large videos[J]. IEEE Transactions on Multimedia, 2019, 21(1): 246-255.
[65]
胡正平, 张乐, 尹艳华. 时空深度特征AP聚类的稀疏表示视频异常检测算法[J]. 信号处理, 2019, 35(3): 386-395.
HU Z P, ZHANG L, YIN Y H. Video anomaly detection by AP clustering sparse representation based on spatial-temporal deep feature model[J]. Journal of Signal Processing, 2019, 35(3): 386-395. (in Chinese)
[66]
FENG J, ZHANG C, HAO P W. Online learning with self-organizing maps for anomaly detection in crowd scenes[C]//Proceedings of the 2010 20th International Conference on Pattern Recognition. Istanbul, Turkey, 2010: 3599-3602.
[67]
SUN Q R, LIU H, HARADA T. Online growing neural gas for anomaly detection in changing surveillance scenes[J]. Pattern Recognition, 2017, 64: 187-201.
[68]
FAN Y X, WEN G J, LI D R, et al. Video anomaly detection and localization via Gaussian mixture fully convolutional variational autoencoder[Z/OL]. arXiv: 1805.11223, 2018.
[69]
CHALAPATHY R, MENON A K, CHAWLA S. Anomaly detection using one-class neural networks[Z/OL]. arXiv: 1802.06360, 2018.
[70]
HASAN M, CHOI J, NEUMANN J, et al. Learning temporal regularity in video sequences[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 733-742.
[71]
SABOKROU M, FATHY M, HOSEINI M. Video anomaly detection and localisation based on the sparsity and reconstruction error of auto-encoder[J]. Electronics Letters, 2016, 52(13): 1122-1124.
[72]
MUNAWAR A, VINAYAVEKHIN P, DE MAGISTRIS G. Limiting the reconstruction capability of generative neural network using negative learning[C]//Proceedings of the 2017 IEEE 27th International Workshop on Machine Learning for Signal Processing. Tokyo, Japan, 2017: 1-6.
[73]
CHALAPATHY R, MENON A K, CHAWLA S. Robust, deep and inductive anomaly detection[C]//Proceedings of 2017 Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Skopje, Macedonia, 2017: 36-51.
[74]
NOGAS J, KHAN S S, MIHAILIDIS A. DeepFall: Non-invasive fall detection with deep spatio-temporal convolutional autoencoders[Z/OL]. arXiv: 1809.00977, 2018.
[75]
ZHAO Y R, DENG B, SHEN C, et al. Spatio-temporal autoencoder for video anomaly detection[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, USA, 2017: 1933-1941.
[76]
WANG T, QIAO M N, LIN Z W, et al. Generative neural networks for anomaly detection in crowded scenes[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(5): 1390-1399.
[77]
RAVANBAKHSH M, NABI M, SANGINETO E, et al. Abnormal event detection in videos using generative adversarial nets[C]//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China, 2017: 1577-1581.
[78]
RAVANBAKHSH M, SANGINETO E, NABI M, et al. Training adversarial discriminators for cross-channel abnormal event detection in crowds[C]//Proceedings of 2019 IEEE Winter Conference on Applications of Computer Vision. Waikoloa Village, USA, 2019: 1896-1904.
[79]
SABOKROU M, KHALOOEI M, FATHY M, et al. Adversarially learned one-class classifier for novelty detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 3379-3388.
[80]
SABOKROU M, POURREZA M, FAYYAZ M, et al. AVID: Adversarial visual irregularity detection[Z/OL]. arXiv: 1805.09521, 2018.
[81]
ZENATI H, FOO C S, LECOUAT B, et al. Efficient GAN-based anomaly detection[Z/OL]. arXiv: 1802.06222, 2018.
[82]
AKCAY S, ATAPOUR-ABARGHOUEI A, BRECKON T P. GANomaly: Semi-supervised anomaly detection via adversarial training[Z/OL]. arXiv: 1805.06725, 2018.
[83]
SCHLEGL T, SEEBÖCK P, WALDSTEIN S M, et al. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery[C]//Proceedings of the 25th International Conference on Information Processing in Medical Imaging. Boone, USA, 2017: 146-147.
[84]
VU H, NGUYEN T D, TRAVERS A, et al. Energy-based localized anomaly detection in video surveillance[C]//Proceedings of the 21st Pacific-Asia Conference on Knowledge Discovery and Data Mining. Jeju, South Korea, 2017: 641-653.
[85]
VU H, NGUYEN T D, LE T, et al. Robust anomaly detection in videos using multilevel representations[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 5216-5223.
[86]
DONAHUE J, KRÄHENBÜHL P, DARRELL T. Adversarial feature learning[Z/OL]. arXiv: 1605.09782, 2016.
[87]
VILLEGAS R, YANG J M, HONG S, et al. Decomposing motion and content for natural video sequence prediction[Z/OL]. arXiv: 1706.08033, 2017.
[88]
LEE S, KIM H G, RO Y M. STAN: Spatio-temporal adversarial networks for abnormal event detection[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada, 2018: 1323-1327.
[89]
D'AVINO D, COZZOLINO D, POGGI G, et al. Autoencoder with recurrent neural networks for video forgery detection[J]. Electronic Imaging, 2017, 2017(7): 92-99.
[90]
CHONG Y S, TAY Y H. Abnormal event detection in videos using spatiotemporal autoencoder[C]//Proceedings of the 14th International Symposium on Neural Networks. Hokkaido, Japan, 2017: 189-196.
[91]
MEDEL J R, SAVAKIS A. Anomaly detection in video using predictive convolutional long short-term memory networks[Z/OL]. arXiv: 1612.00390, 2016.
[92]
LUO W X, LIU W, GAO S H. Remembering history with convolutional LSTM for anomaly detection[C]//Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China, 2017: 439-444.
[93]
SULTANI W, CHEN C, SHAH M. Real-world anomaly detection in surveillance videos[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 6479-6488.
[94]
ADAM A, RIVLIN E, SHIMSHONI I, et al. Robust real-time unusual event detection using multiple fixed-location monitors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(3): 555-560.
[95]
LI N N, WU X Y, XU D, et al. Spatio-temporal context analysis within video volumes for anomalous-event detection and localization[J]. Neurocomputing, 2015, 155: 309-319.
[96]
RAVANBAKHSH M, NABI M, MOUSAVI H, et al. Plug-and-play CNN for crowd motion analysis: An application in abnormal event detection[C]//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, USA, 2018: 1689-1698.