深度人脸伪造与检测技术综述

引用本文

谢天, 于灵云, 罗常伟, 谢洪涛, 张勇东. 深度人脸伪造与检测技术综述[J]. 清华大学学报(自然科学版), 2023, 63(9): 1350-1365.

XIE Tian, YU Lingyun, LUO Changwei, XIE Hongtao, ZHANG Yongdong. Survey of deep face manipulation and fake detection[J]. Journal of Tsinghua University (Science and Technology), 2023, 63(9): 1350-1365.

深度人脸伪造与检测技术综述

谢天^1,2, 于灵云^3,2, 罗常伟^4,5, 谢洪涛³, 张勇东^3,2

1. 安徽大学安徽大学与合肥综合性国家科学中心人工智能研究院联合实验室, 合肥 230601;
2. 合肥综合性国家科学中心人工智能研究院, 合肥 230088;
3. 中国科学技术大学信息科学技术学院, 合肥 230027;
4. 清华大学电子工程系, 北京 100084;
5. 中国人民解放军军事科学院, 北京 100091

收稿日期：2022-04-25

基金项目：国家自然科学基金重点项目(62232006, U1936210); 国家自然科学基金青年科学基金项目(62102127)

作者简介：谢天(1999-), 男, 硕士研究生

通讯作者：于灵云, 副研究员, E-mail: yuly@ustc.edu.cn

摘要：由于现有深度人脸伪造软件通常是开源的或者被封装为APP免费分发, 导致了虚假视频的泛滥。因此开展针对深度人脸伪造检测技术的研究就显得尤为重要。目前, 深度人脸伪造及检测技术正处在快速发展时期, 各种相应的算法也在不断更新迭代。本文首先介绍了深度人脸伪造和其检测技术的代表性算法并给出简要分析, 其中深度人脸伪造技术包括身份替换、面部重演、属性编辑、人脸生成等, 检测技术包括图像级伪造检测技术和视频级伪造检测技术。然后归纳总结了常用的深度人脸伪造与检测数据集及不同算法的评估结果, 最后讨论了伪造技术及其检测技术目前面临的主要问题及发展方向。

关键词：深度人脸伪造深度人脸伪造检测深度生成模型检测技术

Survey of deep face manipulation and fake detection

XIE Tian^1,2, YU Lingyun^3,2, LUO Changwei^4,5, XIE Hongtao³, ZHANG Yongdong^3,2

1. AHU-IAI AI Joint Laboratory, Anhui University, Hefei 230601, China;
2. Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, Hefei 230088, China;
3. The School of Information Science and Technology, University of Science and Technology of China, Hefei 230027, China;
4. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China;
5. Academy of Military Sciences, Beijing 100091, China

Abstract: [Significance] Deep face manipulation technology involves the generation and manipulation of human imagery by different strategies, such as identity swapping or face reenactment between the source face and the target face. On the one hand, the rise of deep face manipulation has inspired a series of applications, including video making and advertising marketing. On the other hand, because face manipulation technology is usually open source or packaged as APPs for free distribution, it makes the threshold of tampering technology lower, resulting in the proliferation of fake videos. Moreover, when face manipulation technology is maliciously used by criminals to produce fake news, especially for important military and political officials, it will guide and intervene in public opinion, posing a great threat to national security and social stability. Therefore, the research on deep face forgery detection technology is particularly important. Hence, it is necessary to summarize the existing research to rationally guide deep face manipulation and detection technology. [Progress] Nowadays, deep face manipulation technology can be roughly divided into four types, namely, identity swapping, face reenactment, face editing, and face synthesis. Deepfakes bring real-world identity swapping to a new level of fidelity. The region-aware face-swapping network provides the identity information of source characters from local and global perspectives, making the generated faces more natural. In the field of facial reenactment, Wav2lip uses pretrained lip synchro models as expert models, encouraging the model to generate natural and accurate lip movements. In the field of face editing, FENeRF, a three-dimensional perception generator based on a neural radiation field, aligns semantic, geometric, and texture information in spatial domain and improves the consistency of the generated image between different perspectives while ensuring that the face can be edited. In the field of face synthesis, Anyface proposes a cross-modal distillation module for the alignment of language and visual representation, realizing the use of text information to generate more diversified face images. Deep face forgery detection technology can be roughly divided into image-level forgery detection and video-level forgery detection methods. In the image-level methods, SBI proposes a self-blended technique to generate realistic fake face images with data augmentation, effectively improving the generalization ability of the model. M2TR proposes a multimodal and multi-scale Transformer model to detect local artifacts at different levels of the image in spatial. Frequency domain features are also added as auxiliary information to ensure the forgery detection ability of the model for highly compressed images. In the video-level methods, RealForensics learns the natural correspondence between the face and audio in a real video in a self-supervised way, enhancing the generalization and robustness of the model. [Conclusions and Prospects] Presently, deep face manipulation and detection technologies are rapidly developing, and various corresponding technologies are in the process of continuous update and iteration. First, this survey reviews the deep face manipulation and detection methods and discusses their strengths and weaknesses. Second, the common datasets and the evaluation results of different manipulation and detection methods are summarized. Finally, the main challenges of face manipulation and fake detection are discussed, and the possible research direction in the future is pointed out.

Key words: deep face manipulation deep face forgery detection deep generative model detection techniques

2017年12月，一位账户叫“Deepfakes”的用户在国际互联网社区“Reddit”发布了好莱坞女星盖尔·加朵的伪造色情视频，这一事件在社会各界掀起了轩然大波，同时也标志着深度人脸伪造技术的兴起，而“Deepfake”^[1]也成为了深度人脸伪造技术的代名词。

深度人脸伪造技术在图像和视频中既可实现对目标人物的身份替换，也可以实现让目标人物根据驱动视频或者指定的音频做出相应的表情动作。此外，深度人脸伪造技术还可以对目标人物的面部属性进行编辑，甚至是生成现实生活不存在的人脸。深度人脸伪造技术在近年来迎来了飞速发展，市面上涌现出例如“Zao”^[2]和“Face APP”^[3]等用于娱乐的换脸应用，满足了大众自己出演电影片段等需求。

然而，深度人脸伪造技术也带来了许多不安定的因素。目前在网络上存在很多名人大量的人脸图像或视频，为伪造技术提供了源素材。同时，由于现有深度人脸伪造软件通常是开源的或者被封装为APP免费分发，大大降低了获得伪造技术的门槛，使得这类素材很容易被不法分子利用。例如，将女星的脸换到色情电影中，严重损害了当事人的名誉；甚至针对重要政要人物进行视频篡改，发布不实言论，严重危害国际安全和社会稳定。因此，开展深度人脸伪造检测技术的研究尤为关键。

为了应对深度人脸伪造技术带来的潜在威胁，各界都开展了对深度人脸伪造检测技术的深入研究，不仅在图像、视频等多方面进行探索，同时还联合利用频域、音频等多模态信息，在泛化性和鲁棒性上取得了一定的突破。此外，脸书联合微软等知名企业和高校，联合举办了到目前为止在深度人脸伪造检测领域奖金最高、影响力最大的人脸伪造检测挑战赛(deepfake detection challenge, DFDC)^[4]，这场竞赛吸引了全球2 265队伍参赛，共提交约3.5万个检测模型，极大地推动了深度人脸伪造检测技术的发展。尽管已有工作^[5]对该领域进行总结归纳，但考虑到深度人脸伪造和检测技术仍处在飞速发展的时期，本文对深度人脸伪造和检测领域最新的工作进行系统科学的更新整理，提炼出现有工作的局限性和未来潜在的发展方向，以促进该领域的研究。

本文整理和更新了目前最先进的深度人脸伪造技术，并简要介绍其技术特点及最新发展方向。归纳了主流的深度人脸伪造检测技术，并对各类技术进行了简要分析，同时加入最新的多模态检测方法及多模态检测数据集。总结了深度人脸伪造和其检测技术的现有难题，指出未来的潜在发展方向。

1 深度人脸伪造技术概述

随着对生成对抗网络(generative adversarial networks, GAN)^[6]研究的不断深入，现有的深度人脸伪造技术得到进一步发展和提升。根据对人脸篡改区域和篡改目的，可将深度人脸伪造技术分为身份替换、面部重演、属性编辑、人脸生成等。图 1为深度人脸伪造检测技术分类示意图。其中身份替换是指在不改变背景的情况下，将源图像的人物身份替换到目标图像的身份上实现换脸。面部重演是指在不改变人物身份的情况下，对人物的表情进行修改。属性编辑则是对人脸的某些外观属性，例如肤色、年龄、头发等进行修改。不同于上述3种对真实存在人脸的篡改手段，人脸生成不依赖于已有的人脸，而是根据某些标签信息或者从噪声中生成虚假人脸。

图 1 深度人脸伪造技术分类示意图

图选项

1.1 身份替换

身份替换是人脸伪造技术中最为经典的一类算法，旨在将目标图像的人脸替换为源图像的人脸，实现对目标图像的身份替换。该算法一般分为3步，首先检测目标图像的面部区域，然后利用篡改模型生成虚假的面部区域，最后用合成的面部替换目标图像中的原有人脸，实现虚假人脸的合成，具体流程如图 2所示。

图 2 身份替换流程图^[14]

图选项

早期的身份替换基于计算机图形学，以FaceSwap^[15]为例，该算法首先获取目标图像的人脸关键点，然后再通过三维人脸重建模型对人脸关键点进行建模，并对三维人脸模型的纹理进行渲染，再经过仿射变换融合到目标图像，最后对目标图像进行色彩校正，得到最终的换脸图像。这种身份替换方式依赖源图像人脸和目标图像人脸的三维人脸模型相似度，当二者相差较大时，会存在明显的伪造痕迹。

以Deepfakes^[1]、FaceShifter^[16]等为代表的深度学习算法为身份替换带来了新的设计思路。Deepfakes算法流程如图 3所示，模型由一个权值共享的编码器和多个针对不同人脸设计的解码器构成。在训练阶段，模型使用同一个编码器对输入的不同人脸图像进行编码，然后根据不同的人脸使用其对应的解码器进行解码，恢复人脸图像。在测试时，首先得到源图像人脸经过编码器得到的潜在特征，然后通过目标图像人脸的解码器对该特征进行解码，实现了对目标图像的身份替换。由于自动编码器结构、训练数据等因素限制，这类方法得到的伪造图像分辨率通常较低，在纹理细节方面有待于进一步提高。

图 3 Deepfakes换脸流程图^[1]

图选项

由于现有方法^{[1, 16-17]}仅在全局特征上进行特征交互，缺乏对人脸局部例如嘴唇、眉毛等区域进行建模，限制了模型保持身份一致性的能力。为了保证生成人脸的身份一致性，Xu等^[7]提出RAFSwap(region-aware face swaping)网络，该网络由局部-全局双分支构成，其中局部分支用于增强局部身份相关特征，全局分支则提供源图像人脸与目标图像人脸之间有关身份一致性的细节，使得生成的人脸图像更加自然。除了保证身份信息的一致性外，身份替换还要尽可能保留目标图像的属性，例如面部表情、照明等。因此，Xu等^[18]尝试从浅层网络解耦出结构属性(如面部形状、姿态等)，深层网络解耦出外观属性(如光照、肤色等)，很好地保留了目标图像属性，有效消除了生成图像的混合伪影。此外，Kim等^[19]认为身份替换的困难在于其训练阶段的梯度不稳定，因此提出了一种身份嵌入网络，用于估计身份嵌入的平滑度，同时通过有监督对比学习对该网络进行训练，实现加速换脸训练，并使得训练过程更加稳定。

1.2 面部重演

面部重演是指在不改变目标人物身份的情况下，对人物的表情特征进行篡改。目前主流的方法需要驱动人物的视频、图像或音频作为输入，实现对目标人物面部表情、头部姿态等的变换。

早期基于图形学的方法所合成的视频或图像质量取决于其合成过程中三维人脸模型重建精度。例如，Thies等^[20]利用三维人脸重建技术，从视频帧中获取驱动人物的人脸三维密集关键点，再通过仿射变换将驱动人物表情迁移到目标人物上，最后通过渲染技术生成最终视频。但由于目标人物和驱动人物的头部姿态不完全一致，两者的三维模型会存在无法完全对齐的情况，使得合成后的视频或图像存在较为明显的瑕疵。

近来，深度生成模型已经在面部重演上取得了不错的进展。为解决传统计算机图形学依赖于高精度人脸三维模型的局限性，Thies等^[21]提出延迟神经渲染框架，同时优化神经纹理和渲染网络，有效降低了对高质量三维人脸模型的依赖。为了减少对人脸关键点的显式依赖，Wiles等^[22]提出X2Face网络，该网络以自监督方式从视频数据中隐式学习人脸面部表示，并且可以通过音频、姿态向量等来驱动人脸。为了缓解面部遮挡问题，Siarohin等^[23]提出遮挡感知生成器，使用光流和遮挡图估计源图像人脸中不可见部分。此外，为了解决当驱动人物和目标人物姿态之间存在较大差异时合成图像存在明显伪影的问题，Hsu等^[24]引入人脸三维关键点检测器来捕获不同姿态之间的局部形状变化，有效改善了姿态相差较大情况下合成图像出现明显伪影的情况，取得了良好的视觉质量。

除了通过驱动人物视频来改变目标人物表情外，一些方法利用音频等信号来驱动目标人物。Prajwal等^[8]提出Wav2Lip模型，该模型利用经过预训练的唇音同步模型来监督模型生成自然、准确的唇部运动。为了合成更真实的头部姿态和面部表情，Zhou等^[25]尝试将音频中的语音内容和说话人身份信息分离，以生成富有表现力的说话人视频。为了保证对说话人姿态的控制，Zhou等^[26]利用一个12维的姿态编码用于控制头部运动，在不使用任何中间结构信息的情况下，自由控制说话人的面部姿势。除了逼真的头部姿态外，说话人合成还需要保证自然的面部表情变化，Liang等^[9]从语音内容、头部姿态和情绪表征来控制说话人面部合成，以互补的形式学习说话人面部情感的表达。此外，Zhang等^[27]将头部姿态、面部表情这类与语音信号具有弱相关性的属性视为隐式属性，联合时序上下文信息对隐式属性进行建模，生成更加逼真的人脸视频。除此之外，由于直接构建音频信号到面部形变的映射是比较困难的，因此现有方法也引入二维关键点或者三维关键点等信息作为中间表征^[28-29]，实现唇音同步的虚假视频。但是这种中间表征存在信息丢失，可能会导致音频和人脸表情之间的语义不匹配。针对上述问题，Guo等^[30]引入神经辐射场^[31]，将音频信号特征直接输入条件隐式函数中，生成动态神经辐射场，最后通过渲染合成高度逼真的人脸视频。由于上述方法都是基于单语种驱动的虚假人脸动画合成，当推理阶段的音频与训练阶段语音来自不同语言时，会导致合成视频唇部和音频不一致。因此，Song等^[32]引入多语言语音合成模型，为来自不同语言的音频驱动合成视频提供了更加精确的表示。

1.3 属性编辑

属性编辑旨在通过对人物的面部属性进行修改，例如头发或皮肤的颜色、年龄、是否佩戴眼镜等，实现虚假人脸的合成。

较早的属性编辑方法如Perarnau等^[33]提出的方法尽管实现了对属性的编辑，但同时也严重改变了其他非编辑属性。为解决上述问题，研究者采用不同手段探索将不同属性及同一属性的不同风格等进行解耦，实现自由可控的属性编辑。例如，He等^[34]通过对人脸属性进行分类，在语义空间中将各种属性进行解耦，从而保证人脸属性的正确编辑，并且很好地保留了面部其他细节。Schwarz等^[10]提出生成式辐射场(generative radiance field, GRAF)，实现人脸纹理和形状之间的解耦。Chan等^[35]提出pi-GAN，利用周期性激活函数改进了合成图像质量。Niemeyer等^[36]提出生成式神经辐射场(generative neural feature fields, GIRAFFE)，将三维场景表征加入到生成模型中，从而实现更加可控的属性编辑。Shen等^[37]探索在预训练后GAN的潜在空间中对各种语义进行解耦，从而更精确地控制面部属性。Yao等^[38]在StyleGAN^[12]的基础上，在损失函数中加入显式解耦项和身份一致项。Xu等^[39]采用基于Transformer框架来增强双空间GAN之间的交互能力，将属性的风格和内容表示解耦，提高了生成图像的质量和属性编辑的灵活性。

除了解耦GAN潜在空间中的语义信息之外^{[10, 33-34]}，部分研究工作利用文本信息对人脸属性进行编辑。例如，Jiang等^[40]提出以文字驱动的交互式面部编辑框架，借助语义场对GAN潜在空间的特征进行建模，实现了对人脸更细粒度的属性编辑。除此之外，Sun等^[11]提出基于神经辐射场的三维感知生成器，在空间上对齐语义、几何和纹理信息，在保证人脸可编辑的情况下，提高了生成图像在不同视角之间的一致性。

1.4 人脸生成

不同于上述3种方法，人脸生成不依赖于现实存在的人脸，而是从噪声等信息中生成现实中不存在的人脸。

随着GAN提出，深度人脸伪造技术飞跃进步。但研究人员很快发现，GAN难以生成高分辨率图像^[41-42]。为了解决上述问题，Karras等^[43]提出渐进式训练的ProGAN网络，从分辨率低的生成器和判别器开始训练，逐渐增加分辨率更高的层，保证了高分辨率图像的稳定生成。但ProGAN对控制图像生成特定风格、属性的能力非常有限，为了更精细化控制生成图像，Karras等^[12]借鉴风格迁移任务，在ProGAN的基础上提出StyleGAN模型。该模型加入映射网络，保证其隐空间向量可以被解耦，同时提出新的量化隐空间解耦程度方法，实现了在不影响其他层级的情况下，通过修改每一层级的输入，来改变该层级所表示的视觉特征。尽管StyleGAN能够生成特征可控的高质量人脸，但其合成的图像中会出现类似液滴状的伪影(见图 4)，并且当脸部朝向发生改变时，合成人脸图像中的牙齿、眼睛等区域倾向于不变。针对上述问题，Karras等^[44]重新设计了网络中的归一化方法用于消除液滴伪影，并采用容量更大的模型作为生成器和判别器取代原有的渐进式训练策略，解决了当人脸发生转动时，牙齿等区域不变的问题。

图 4 StyleGAN生成图像及液滴伪影示意图

图选项

此外，还有研究利用文本信息生成人脸。Xia等^[45]利用GAN反演技术将文本信息映射到预训练的StyleGAN的潜在空间中，再通过StyleGAN生成人脸图像，实现了文本引导的人脸图像生成。但该方法生成的人脸图像受限于训练集的规模，导致生成的人脸图像可能与文本信息无关。为此，Sun等^[13]引入CLIP(contrastive language-image pre-training)^[46]模型，用于提取开放场景下与图像视觉相关的文本特征，并提出跨模态蒸馏模块用于对齐语言和视觉特征，实现了利用文本信息生成更多样化的人脸图像。

2 深度人脸伪造检测技术概述

目前伪造检测技术大致分为图像级伪造检测方法和视频级伪造检测方法，如图 5所示。

图 5 深度人脸伪造检测技术分类示意图

图选项

2.1 图像级伪造检测方法

图像级伪造检测方法是指对待检图像或视频中的单帧图像进行检测。根据检测方法原理的不同，该技术可分为基于空域的检测方法和基于频域的检测方法。

2.1.1 基于空域的检测方法

早期一些在图像分类领域表现优秀的模型如Xception^[53]、EfficientNet^[54]等，在伪造检测任务上也表现出不错的性能。但由于这些模型并非专门为伪造检测任务设计的，模型在对训练集中未出现过的伪造方法合成的虚假图像进行检测时，其检测性能会急剧下降，并且在面对图像压缩等常见扰动方法时鲁棒性不足。随着合成的虚假人脸越来越逼真，Zhao等^[48]认为真实人脸和伪造人脸之间的区别存在于细微的局部细节，因此提出纹理增强模块、注意力生成模块、双线性注意力池化模块用于引导模型更多地关注人脸的纹理细节。其中纹理增强模块用于增强模型在浅层网络中提取到的纹理信息。注意力生成模块会生成多个注意力图，从而帮助网络关注图像的各个位置，充分地挖掘出细微的纹理伪像。双线性注意力池化模块则保证注意力图之间关注区域不重合，保证对图像细节纹理更全面的提取。

然而，上述方法往往会过拟合于特定伪造方法的伪造伪影^[47]，面对训练时未见过的伪造方法时，模型检测性能会迅速下降。为了提高模型的泛化能力，一些方法尝试在真实人脸上施加一定操作自行生成伪造人脸，来避免过拟合于特定伪造方法。Li等^[47]提出Face X-Ray模型，通过判断人脸融合的边界来进行伪造检测。具体而言，该模型在训练时主动生成伪造人脸，获取人脸混合边界的灰度图。在对网络进行训练时，除了对人脸图像进行真假二分类预测外，还针对生成图像的融合边界的灰度图逐像素进行二分类。由于并不依赖于特定伪造方法的伪影痕迹进行检测，该方法在对未见过的伪造方法合成的虚假图像进行检测时，表现出惊人的泛化能力。除了通过利用人脸融合边界来提高模型的泛化性外，Zhao等^[55]假设伪造的图像上会出现来自不同图像的源特征，基于上述假设提出成对自一致性学习(pair-wise self-consistency learning, PCL)作为辅助任务。该方法首先将图像特征图分解成局部块，然后计算局部块两两之间的余弦相似度，得到一致性灰度图；为了对模型生成的一致性灰度图进行训练，还提出不一致性图像生成器，生成伪造图像以及对应的一致性灰度图作为标签。此外，Shiohara等^[56]认为越难以检测的伪造人脸通常包含更通用的伪造痕迹，能够鼓励模型学习到泛化能力更强的特征表示，因此提出自混合图像(self-blended images, SBI)作为合成的伪造图像。不同于Face X-Ray和PCL需要依赖关键点相近的其他人脸来生成虚假人脸，SBI仅通过对人脸图像自身的关键点进行变换，同时配合数据增广方法生成逼真的伪造人脸图像。这类方法不依赖于特定伪造方法的虚假人脸对网络进行训练，所以面对未知的伪造方法合成的虚假图像时有着较强的泛化能力，但由于依赖自伪造过程，这类方法在面对整脸合成方法合成的虚假图像时表现欠佳。

此外，Cao等^[57]尝试通过对真实人脸进行重建学习来辅助模型学习到对真实人脸更加紧凑的特征，并提出重建引导注意模块，将重建图像和原始图像之间的差异作为注意力图，用于引导模型关注更有可能被篡改的区域；同时，还配合重建分类学习(reconstruction-classification learning, RECCE)挖掘真假人脸之间的本质差异。除了引入重建学习外，还有部分工作研究深度人脸伪造检测模型的可解释性。例如，Dong等^[58]假设检测模型是通过检测图像中与人物身份无关的信息判断图像真伪，因此将人脸身份作为辅助标签，设计源特征编码器和目标编码器执行身份识别任务，对图像中与人物身份识别任务相关和无关的特征表示进行解耦，提高了检测模型的鲁棒性和泛化性。

2.1.2 基于频域的检测方法

经过网络上不同流媒体的传播，视频、图像通常会被多次压缩，经过多次压缩后的低质量图像等几乎看不出伪造伪影。因此，不同于以往基于空域的检测方法^[47-48]，研究人员尝试从频域等其他角度获取检测线索。例如，Qian等^[49]发现在频域上能够很好地挖掘由伪造方法带来的伪影细节；为了能够获取全面的频域信息，设计了频域感知分解模块，用于自适应地捕捉图像中的伪造线索，同时还提出局部频率信息统计模块，在图像每个局部空间中统计频率信息，随后将这些统计量重组成多通道特征图，作为在频域上的补充信息。由于依靠频域信息进行检测，该方法在面对高度压缩后的伪造图像上仍保持优异的检测性能。为了在频域上更全面地捕捉伪造伪影，Li等^[50]提出自适应频率特征生成模块，以可学习的方式从不同的频段中提取差异性特征。同时，考虑到不同伪造方法的特征分布不同，提出单中心损失(single center loss, SCL)，用于提高真实人脸的类内紧凑性，同时增大真实人脸和伪造人脸类间差异。由于伪影在不同图像上出现的区域各有不同，为了捕捉不同尺度的伪影痕迹，Wang等^[59]提出多模态多尺度Transformer模型(multi-modal multi-scale transformer, M2TR)用于检测图像在空间上不同层次的局部伪影细节等，同时还加入频域特征作为辅助信息，保证了模型对高度压缩图像的伪造检测能力。上述基于频域的方法在面对高度压缩的伪造图像时具有较强的伪造检测能力，但面对未知伪造方法时的伪造检测能力仍会急剧下降。

2.2 视频级伪造检测方法

由于现有的伪造视频大多都是对真实视频中每一帧图像进行伪造，再将伪造图像进行拼接，最后得到伪造视频。因此，伪造视频的前后帧之间的光照、纹理等往往存在比较明显的不一致，如图 6中第1帧(t =1)和第2、3帧以及第2、3帧和第4帧眉毛区域存在明显不一致。这种时序不一致性在伪造视频中普遍存在，因此研究人员开始探索视频级伪造检测方法。根据检测手段的不同，可将其分为基于时域的检测方法和基于多模态的检测方法。

图 6 伪造视频时序不一致性示意图

图选项

2.2.1 基于时域的检测方法

为了挖掘帧间的动态不一致性，Masi等^[60]提出一种双流分支网络，其中一个分支用于提取视频连续多帧的动态时序不一致性，另一分支使用LoG(Laplacian of Gaussian) 算子放大伪影细节。同时，由于伪造检测任务和异常检测任务具有较强相关性，Masi等还引入异常检测任务中常用的损失函数Deep SVDD(deep support vector data description)^[61]，用于提高真实人脸的类内紧凑性以及真实人脸和伪造人脸的类间区分度，增强了模型的泛化能力。此外，Zheng等^[51]发现将三维卷积核中的时间卷积核大小设置为1时，能够增强网络对时序信息的表达能力，从而捕捉到伪造视频中的时序不一致性，在面对未知的伪造方法时，有着出色的检测能力。但由于这种时序不一致性容易受到噪声、压缩等因素的干扰，导致检测线索被破坏，因此这类方法的鲁棒性较差。

2.2.2 基于多模态的检测方法

人在说话时，唇部会随着语音同步地运动，前后帧间的唇部运动应当是连续且自然的。基于上述原理，Haliassos等^[62]认为伪造的视频会破坏唇部在相邻帧之间的连续性，因此提出LipForensics模型。为了保证模型学习到自然唇部运动特征，该模型首先在LRW^[63]数据集对模型进行唇读预训练，随后在伪造检测数据集上进行微调。LipForensics模型在跨伪造方法测试时表现出优异的性能，同时由于唇部语义不易受到常见扰动的特性，该方法在鲁棒性测试上也远超其他方法。尽管LipForensics表现出优异的检测性能，但模型只关注人脸嘴部区域，忽略了来自其他面部区域的信息，限制检测模型的性能。Haliassos等^[52]又提出RealForensics模型，如图 7所示。该模型通过残差网络(residual network, resnet)^[64]提取音频特征，通过通道分离卷积网络(channel-separated convolutional networks, CSN)^[65]提取视频特征，以自监督方式学习真实视频中人脸和音频之间的自然对应关系，例如面部表情随音频变化等，弥补了LipForensics^[61]模型只关注唇部运动的缺陷。在模型学习到人脸和音频对应的自然关系后，在伪造检测数据集上进行微调。这类方法在鲁棒性和泛化性上表现出更优异的性能，但由于其需要先在大规模数据集上进行预训练任务，需要大量算力支持，为后续跟进的工作设置了不小的门槛。

图 7 RealForensics预训练及微调示意图^[52]

图选项

3 深度人脸伪造与检测常见数据集及评测结果

本节对目前伪造与检测常见数据集及现有主流方法在相应数据集上评测结果进行了汇总和分析，如表 1—4所示。对于原文实验中未涉及或是缺失实验部分，表中以“—”代替。

表 1 4类伪造技术的典型方法评估结果

技术	方法	ID Ret↑	Pose↓	Exp↓	SSIM↑	LMD↓	Sync_conf↑	CSIM↑	FID↓	KID(×10³)↓	LPIPS↓
身份替换	Deepfakes^[1]	88.39	4.64	3.33	—	—	—	—	—	—	—
	FaceSwap^[14]	72.69	2.58	2.89	—	—	—	—	—	—	—
	FaceShifter^[15]	90.68	2.55	2.82	—	—	—	—	—	—	—
	SimSwap^[17]	89.73	1.94	2.39	—	—	—	—	—	—	—
	RAFSwap^[7]	96.70	2.53	2.92	—	—	—	—	—	—	—
	High-resolution^[18]	90.05	2.46	2.79	—	—	—	—	—	—	—
面部重演音频驱动	Wav2Lip^[8]	—	—	—	0.747	3.543	4.674	—	—	—	—
	MakeItTalk^[25]	—	—	—	0.618	4.102	3.926	—	—	—	—
	PC-AVS^[26]	—	—	—	0.605	3.963	3.248	—	—	—	—
	GC-AVT^[9]	—	—	—	0.659	2.764	3.730	—	—	—	—
视频或图像驱动	X2Face^[22]	—	—	—	0.75	—	—	0.18	56.5	—	—
	FOMM^[23]	—	—	—	0.72	—	—	0.81	25.0	—	—
	Dual-generator^[24]	—	—	—	0.76	—	—	0.83	22.1	—	—
属性编辑	GRAF^[10]	—	—	—	—	—	—	—	34.7	15.6	—
	pi-GAN^[35]	—	—	—	—	—	—	—	14.7	3.9	—
	Giraffe^[36]	—	—	—	—	—	—	—	16.2	9.1	—
	FE-NeRF^[11]	—	—	—	—	—	—	—	12.1	1.6	—
人脸生成	StyleGAN^[12]	—	—	—	—	—	—	—	4.40	—	—
	StyleGAN2^[44]	—	—	—	—	—	—	—	2.84	—	—
	TediGAN^[45]	—	—	—	—	—	—	—	106.37	—	0.456
	AnyFace^[13]	—	—	—	—	—	—	—	50.56	—	0.446
注：↑表示指标越高效果越好，↓表示指标越低效果越好

表选项

表 2 深度人脸伪造检测常见数据集

数据集名称	数据集规模	数据获取源	数据集描述
UADFV^[81]	98个视频	Youtube	早期数据集，数据规模较小
DeepfakeTIMIT^[82]	高清视频和低清视频各320个	VidTIMIT^[94]	早期数据集，数据规模较小
FaceForensics++^[66]	1 000个原始视频、4 000个伪造视频	Youtube	使用4种伪造手段，包含3种不同压缩程度的视频
Deepfake-Detection^[83]	363个原始视频、3 068个伪造视频	演员拍摄	在363个不同场景下拍摄的原视频、包括3种不同压缩程度的视频
DFDCP^[84]	1 141个原始视频、4 073个伪造视频	演员拍摄	Deepfakes竞赛的预赛数据集
DFDC^[4]	23 654个原始视频、104 500个伪造视频	演员拍摄	Deepfakes竞赛的正赛数据集
DeeperForensics-1.0^[85]	10 000个真实视频、50 000个伪造视频	演员拍摄	采用最新的换脸方法伪造视频
Celeb-DF-v2^[86]	590个真实视频、5 926个伪造视频	Youtube	伪造人脸质量更高、更逼真
WildDeepfake^[87]	3 805个真实视频序列、3 509个伪造视频序列	网络收集	视频场景和人物活动更加丰富，背景、光照等条件更加多元化
FFIW-10K^[88]	10 000个原始视频、10 000个伪造视频	Youtube	视频中会同时出现多张人脸，每个视频都包含真实人脸和伪造人脸，更加接近现实复杂场景
ForgeryNet^[89]	99 630个原始视频、121 617个伪造视频	VoxCeleb2^[68]等多个数据集	目前为止最大的伪造检测数据集，提出了包括时序伪造定位、空间伪造定位等多项任务
OpenForensics^[90]	16 067张真实人脸、173 660伪造人脸	Google Open Images^[95]数据集	将目标检测和实例分割引入伪造检测领域，提出了新任务
Sequential Deepfake Dataset^[91]	85 086张人脸图像	CelebA-HQ^[34]数据集	序列数据集，对人脸进行多次伪造，提出恢复伪造人脸的新任务
FakeAVCeleb^[92]	500个真实视频、19 500个伪造视频	VoxCeleb2^[68]数据集	多模态数据集，提供音频。对人脸和音频进行伪造
LAV-DF^[93]	36 431个真实视频、99 873个伪造视频	VoxCeleb2^[68]数据集	多模态数据集，提供音频。基于音频内容驱动对音频及人脸进行伪造

表选项

表 3 深度人脸伪造检测代表性方法在FF++实验结果

%
检测方法	测试集: FF++ HQ(训练集: FF++ HQ)		测试集: FF++ LQ(训练集: FF++ LQ)
检测方法	ACC	AUC	ACC	AUC
F3-Net^[49]	99.0	99.3	93.0	95.8
SCL^[50]	96.7	99.3	89.0	92.4
Face X-Ray^[47]	—	—	—	61.6
SBI^[56]	—	99.2	—	—
MAD^[48]	97.6	99.3	88.7	90.4
M2TR^[59]	97.9	99.5	92.9	95.3
Two-Branch^[60]	—	99.1	—	91.1
LipForensics^[62]	98.8	99.7	94.2	98.1
注：其中HQ表示c23低压缩率^[66]，LQ表示c40高压缩率^[66]

表选项

表 4 深度人脸伪造检测代表性方法跨数据集实验AUC结果

%
检测方法	测试集: Celeb-DF-v2^[86]	测试集: DFDC^[4]	测试集: FSh^[9]	测试集: DFo^[85]
Face X-Ray^[47]	79.5	72.1	65.7	74.4
PCL+I2G^[55]	90.0	67.5	—	99.4
SBI+EB4^[56]	89.9	74.9	97.4	77.7
MAD^[48]	67.4	—	—	—
M2TR^[59]	68.2	—	—	—
Two-Branch^[60]	76.7	—	—	—
FTCN^[51]	86.9	74.0	98.8	98.8
LipForensics^[62]	82.4	73.5	97.1	97.6
RealForensics^[52]	86.9	75.9	99.7	99.3
注：训练集为FF++HQ

表选项

3.1 深度人脸伪造数据集及评测结果

对大多数深度人脸伪造方法，往往从定性角度(如合成图像效果)在主观上比较优劣，而缺乏统一的客观评估。因此，为了全面地量化评估不同伪造技术的性能，本节分别对4类伪造技术进行客观评估。

CelebA-HQ^[43]和FaceForensics++^[66]为身份替换技术常用数据集，其中CelebA-HQ包括30 000张分辨率为1 024×1 024像素的名人面部图像，FaceForensics++^[66]包括1 000个原始人物视频。

VoxCeleb1^[67]、VoxCeleb2^[68]和MEAD^[69]数据集常用于面部重演技术。VoxCeleb1^[67]包含从YouTube上收集到1 251位名人的10万多条说话人视频。VoxCeleb2作为VoxCeleb1的扩展版本，包括6 000多名演讲者的100多万条说话人视频。MEAD^[69]是一个带有情感标注的说话人视频数据集，包括30多名演员及3个不同强度的8个情感类别标注。

FlickrFaces-HQ(FFHQ)^[12]和CelebA-HQ常用于属性编辑技术。FFHQ是包括70 000张高质量人脸数据集，图像分辨率为1 024×1 024像素，相比CelebA-HQ数据集在年龄、种族、图像背景等方面更具多样性。

多模态CelebA-HQ^[45]数据集和CelebAText-HQ^[70]原始数据来源于CelebA-HQ，常用于文本驱动下的人脸生成技术。多模态CelebA-HQ包括30 000张带有属性标签合成的文本描述的人脸图像，CelebAText－HQ包含15 010张带有人工标注的文本描述的人脸图像。

身份替换常用的客观指标主要包括身份一致性分数(identity retrieval rate, ID Ret)、位姿(Pose)和表情(expressiong, Exp)误差。ID Ret指标由CosFace^[71]计算交换后的人脸和源人脸之间的余弦相似度。通过位姿估计器^[72]和3-D人脸模型^[73]提取位姿和表情向量，测量交换后的人脸和源人脸之间对应向量的L2距离作为位姿误差和表情误差。

面部重演的客观指标包括余弦相似度(cosine similarity, CSIM)、结构相似性(structural similarity, SSIM)^[74]、关键点距离(landmark distance, LMD)^[75]和唇音同步置信度(lip-sync confidence, Syncconf)^[76]。CSIM由ArcFace^[77]计算源人脸和生成人脸之间的余弦相似度。SSIM用于评估合成图像的视觉质量，LMD通过比较真实视频和生成视频中检测到的关键点之间的平均L2距离来评估唇音一致性，Syncconf则是通过唇音同步网络SyncNet比较唇部和音频之间的同步性。

属性编辑和人脸生成常用的指标包括FID(fr ′echet inception distance)^[78]和学习感知图像块相似度(learned perceptual image patch similarity, LPIPS)^[79]和KID(kernel inception distance)^[80]，用来评估合成图像的真实度和多样性。

4类伪造技术的典型方法评估结果如表 1所示。身份替换技术的典型方法在CelebA-HQ进行训练，在FaceForensics++上进行测试。其中RAFSwap从局部-全局双分支提高了伪造人脸与源人脸之间的身份一致性，但在姿态和表情保持能力上较弱。而SimSwap则通过隐式特征匹配损失，有效地保留了姿态、表情等属性。面部重演技术的典型方法中，Wav2Lip、MakeItTalk、PC-AVS、GC-AVT通过音频驱动目标人物，其中Wav2Lip将SyncNet作为判别器用于监督模型生成自然的唇部运动，因此Wav2Lip在Syncconf指标上比其他方法更优。受益于对头部姿态和人脸表情更精确的表达能力，GC-AVT在LMD指标上表现更好。在通过视频或图像驱动目标人物的方法中，Dual-generator采用双生成器网络，更好地保留了身份信息和面部表情，在各个指标上都达到了最优的结果。属性编辑技术的典型方法中，FE-NeRF在三维空间中隐式对齐人脸面部语义和纹理信息，有效提高了伪造的人脸图像质量。而人脸生成技术的典型方法中，StyleGAN和StyleGAN2都在FFHQ数据集上进行训练并测试，StyleGAN2在解决液滴伪影等问题后，取得了比StyleGAN更为出色的结果。TediGAN^[45]、AnyFace通过文本驱动人脸图像合成，在多模态数据集CelebA-HQ上进行测试和训练。由于AnyFace采用了更为强大的语义特征提取器CLIP，文本语义表征更加丰富，因此合成指标上比TediGAN更优。

3.2 深度人脸伪造检测数据集及评测结果

早期的伪造检测数据集如UADFV^[81]，DeepfakeTIMIT^[82]等数据集伪造手段单一，数据集规模较小，并且伪造效果并不理想。随着深度人脸伪造技术的发展，包含更多伪造手段和更大规模的数据集被发布。FaceForensics++包含4种不同伪造手段及3种不同分辨率，是目前最为常用的数据集。Deepfake-Detection^[83]由谷歌公司邀请演员进行拍摄的原始视频，这些视频在场景上更为丰富，伪造视频质量较好。DFDCP^[84]分别为DFDC^[4]是The Deepfake Detection Challenge竞赛的预赛、正式数据集，原始视频均由演员拍摄，视频中包含大量干扰，例如压缩、噪声、极端光照等，是目前最具挑战性的伪造检测数据集之一。

随着深度人脸伪造技术的不断发展，伪造的人脸更加逼真，研究人员开始提出伪造人脸质量更高、场景更加多样、包含更多新任务的数据集。DeeperForensics-1.0(DFo)^[85]数据集在场景和人物姿态多样性比以往的数据集更加丰富，在数据集规模上也远超大部分数据集。Celeb-DF-v2^[86]使用改进的伪造人脸技术，显著提高了伪造视频质量，明显减少了伪造图像中的伪影区域。WildDeepfake^[87]包含更多真实世界中的场景，人物活动等。FFIW-10K^[88]引入更加复杂的现实场景，一张图像中可能会包含多张人脸，并且真假人脸可能会同时出现。ForgeryNet^[89]是目前规模最大的伪造检测数据集，同时还提出了时序伪造定位等多项新任务。OpenForensics^[90]将目标检测和实例分割任务引入伪造检测领域，用于在图像中出现多张人脸时进行准确分割并检测。Sequential Deepfake Dataset^[91]对人脸属性进行多次伪造，记录每次伪造的区域作为标签，并提出将多次伪造后的人脸恢复到原人脸的新任务。

还有工作提出包含音频信息的多模态伪造数据集。FakeAVCeleb^[92]提出多种音视频联合伪造方式，采用了身份替换、面部重演、语音合成等多种伪造手段，其中伪造视频包括真视频和假音频组合、假视频和真音频组合、假视频和假音频组合，是首个大规模多模态深度人脸及音频伪造检测数据集。LAV-DF^[93]数据集以内容驱动的方式更改音频信息，改变语句中最容易改变整句话语义信息的词语，伪造视频同样包括真视频假音频等3种组合方式。

伪造检测技术的主流方法在数据集上评测结果见表 3和4。目前主要的评测指标有准确率(accuracy, ACC)和接收者操作特征曲线(receiver operating characteristic curve, ROC)下的面积(area under curve, AUC)。由于在进行跨数据集测试时，测试集中生成虚假人脸的伪造手段与训练集存在较大差异，导致训练数据集和测试数据集分布差异较大，判断真假二分类的阈值也会随之偏移，采用ACC无法真实反应模型的准确率，因此在进行跨数据集测试时，现有工作^{[51-52, 62]}只采用AUC作为跨数据集测试指标。表 3中，在FF++HQ版本上训练并测试时，模型的AUC指标能够达到99%以上，说明模型普遍在低压缩率上表现良好。而在FF++LQ版本上进行训练并测试时，不同模型则表现出了较大的差异。由于在高压缩率下，虚假图像的伪造痕迹会遭到破坏，因此Face X-Ray等基于空域的检测方法其性能会明显下降。而基于频域的方法如F3-Net在高度压缩的图像上仍保持一定的检测能力，但这类方法对未知伪造手段的泛化性有待进一步提升。如表 4所示，一些在域内数据集测试时表现良好的方法如M2TR等，在进行跨数据集测试时检测性能会迅速下降，而基于自伪造方法如SBI目前取得较好的泛化性能，但这类方法检测整脸合成方法伪造的虚假图像时性能会急剧下降^[56]。基于多模态的方法如RealForensics等，在泛化性和鲁棒性上都取得了不错的检测结果，但这类方法往往需要大量的算力支撑。

4 结论

目前深度人脸伪造技术已经取得了巨大的进步，生成的人脸图像越发逼真，达到了“以假乱真”的程度。但现有伪造技术在生成视频时仍表现欠佳，一个重要原因是大多方法往往是针对单帧图像上的合成人脸的改进，而忽略了上下帧间的时序一致性，导致合成视频时连续帧之间的脸部纹理、口腔等区域存在明显的不一致性。

深度人脸伪造检测技术目前的核心问题在于如何构建出泛化能力强的模型，同时保证模型在面对压缩等各类扰动下进行检测时具有较强的鲁棒性。基于空域的检测方法有着较为良好的泛化性能，但这类方法容易受到压缩等扰动的影响，导致检测性能下降。而基于频域的检测方法在面对压缩等干扰时能够保持相对稳定的检测性能，但这类方法在对于未知的伪造方法时检测性能会迅速下降。基于时域的检测方法泛化能力较好，但由于这种时序不一致性容易受到噪声、压缩等因素的干扰，导致检测线索被破坏，因此这类方法的鲁棒性较弱。相比之下，基于多模态的检测方法在鲁棒性和泛化性上都取得了不错的效果，但这类方法对于计算资源有较高的要求。

当前深度人脸伪造和其检测技术目前的主要关注点有：

1) 伪造视频一致性的问题。现有大多数伪造方法往往只关注于生成高分辨率、高逼真度的伪造图像，缺乏对帧间时序信息的考虑，导致合成视频的前后帧在光照、纹理等细节上出现明显差异。因此，如何保证合成视频人物在时序上的一致性是未来需要解决的问题之一。

2) 伪造检测技术发展方向。目前伪造检测技术或是捕捉图像中局部伪影，或是挖掘视频帧间不一致性来判别真伪。但随着伪造技术的不断发展，虚假人脸的伪造手段和场景会更加多样，检测时受到的干扰也更复杂。因此，可以融合如频域、音频等多维度检测方法，有效提高模型的鲁棒性和泛化性。

3) 现实场景应用问题。目前，Deepfakes合成的虚假视频在网络上泛滥成灾，并且由于网络传播的复杂性，图像的质量、压缩率、分辨率等千差万别，给伪造检测任务带来了巨大的挑战。因此除了通过技术层面解决人脸伪造技术带来的弊端外，还需从司法立法、舆论引导、知识科普等多方面协同攻关。

参考文献

[1]	Deepfakes. Deepfakes github[EB/OL]. [2022-09-14]. https://github.com/Deepfakes/faceswap.
[2]	Zao. Zao app. [EB/OL]. (2019-12-01)[2022-09-14]. https://zaodownload.com/download-zao-app-deepfake.
[3]	Face app. Face app[EB/OL]. [2022-09-14]. https://apps.apple.com/gb/app/faceapp-ai-face-editor/id1180884341.
[4]	DOLHANSKY B, BITTON J, PFLAUM B, et al. The deepfake detection challenge (DFDC) dataset[EB/OL]. [2022-09-14]. https://arxiv.org/abs/2006.07397.
[5]	MIRSKY Y, LEE W. The creation and detection of deepfakes: A survey[J]. ACM Computing Surveys, 2022, 54(1): 7.
[6]	GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014: 2672-2680.
[7]	XU C, ZHANG J N, HUA M, et al. Region-aware face swapping[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 7622-7631.
[8]	PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle, USA: ACM, 2020: 484-492.
[9]	LIANG B R, PAN Y, GUO Z Z, et al. Expressive talking head generation with granular audio-visual control[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 3377-3386.
[10]	SCHWARZ K, LIAO Y Y, NIEMEYER M, et al. Graf: Generative radiance fields for 3D-aware image synthesis[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020: 1692.
[11]	SUN J X, WANG X, ZHANG Y, et al. FENeRf: Face editing in neural radiance fields[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 7662-7672.
[12]	KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 4396-4405.
[13]	SUN J X, DENG Q Y, LI Q, et al. AnyFace: Free-style text-to-face synthesis and manipulation[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 18666-18675.
[14]	SHANG Z H, XIE H T, ZHA Z J, et al. PRRNet: Pixel-region relation network for face forgery detection[J]. Pattern Recognition, 2021, 116: 107950. DOI:10.1016/j.patcog.2021.107950
[15]	FaceSwap. FaceSwap github[EB/OL]. [2022-09-14]. https://github.com/MarekKowalski/FaceSwap.
[16]	LI L Z, BAO J M, YANG H, et al. Advancing high fidelity identity swapping for forgery detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 5073-5082.
[17]	CHEN R W, CHEN X H, NI B B, et al. SimSwap: An efficient framework for high fidelity face swapping[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle, USA: ACM, 2020: 2003-2011.
[18]	XU Y Y, DENG B L, WANG J L, et al. High-resolution face swapping via latent semantics disentanglement[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 7632-7641.
[19]	KIM J, LEE J, ZHANG B T. Smooth-Swap: A simple enhancement for face-swapping with smoothness[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 10769-10778.
[20]	THIES J, ZOLLHÖFER M, STAMMINGER M, et al. Face2Face: Real-time face capture and reenactment of RGB videos[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 2387-2395.
[21]	THIES J, ZOLLHÖFER M, NIEβNER M. Deferred neural rendering: Image synthesis using neural textures[J]. ACM Transactions on Graphics, 2019, 38(4): 66.
[22]	WILES O, KOEPKE A S, ZISSERMAN A. X2Face: A network for controlling face generation using images, audio, and pose codes[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 690-706.
[23]	SIAROHIN A, LATHUILIōRE S, TULYAKOV S, et al. First order motion model for image animation[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: NeurIPS Foundation, 2019: 641.
[24]	HSU G S, TSAI C H, WU H Y. Dual-generator face reenactment[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 632-640.
[25]	ZHOU Y, HAN X T, SHECHTMAN E, et al. MakeltTalk: Speaker-aware talking-head animation[J]. ACM Transactions on Graphics, 2020, 39(6): 221.
[26]	ZHOU H, SUN Y S, WU W, et al. Pose-controllable talking face generation by implicitly modularized audio-visual representation[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 4174-4184.
[27]	ZHANG C X, ZHAO Y F, HUANG Y F, et al. FACIAL: Synthesizing dynamic talking face with implicit attribute learning[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 3847-3856.
[28]	YU L Y, XIE H T, ZHANG Y D. Multimodal learning for temporally coherent talking face generation with articulator synergy[J]. IEEE Transactions on Multimedia, 2022, 24: 2950-2962. DOI:10.1109/TMM.2021.3091863
[29]	SUWAJANAKORN S, SEITZ S M, KEMELMACHER-SHLIZERMAN I. Synthesizing obama: Learning lip sync from audio[J]. ACM Transactions on Graphics, 2017, 36(4): 95.
[30]	GUO Y D, CHEN K Y, LIANG S, et al. AD-NeRF: Audio driven neural radiance fields for talking head synthesis[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 5764-5774.
[31]	MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2022, 65(1): 99-106. DOI:10.1145/3503250
[32]	SONG H K, WOO S H, LEE J, et al. Talking face generation with multilingual TTS[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 21393-21398.
[33]	PERARNAU G, VAN DE WEIJER J, RADUCANU B, et al. Invertible conditional GANs for image editing[EB/OL]. [2022-09-14]. https://arxiv.org/abs/1611.06355.
[34]	HE Z L, ZUO W M, KAN M N, et al. AttGAN: Facial attribute editing by only changing what you want[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5464-5478. DOI:10.1109/TIP.2019.2916751
[35]	CHAN E R, MONTEIRO M, KELLNHOFER P, et al. pi-GAN: Periodic implicit generative adversarial networks for 3D-aware image synthesis[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 5795-5805.
[36]	NIEMEYER M, GEIGER A. GIRAFFE: Representing scenes as compositional generative neural feature fields[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 11448-11459.
[37]	SHEN Y J, GU J J, TANG X O, et al. Interpreting the latent space of GANs for semantic face editing[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 9240-9249.
[38]	YAO X, NEWSON A, GOUSSEAU Y, et al. A latent transformer for disentangled face editing in images and videos[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 13769-13778.
[39]	XU Y B, YIN Y Q, JIANG L M, et al. TransEditor: Transformer-based dual-space GAN for highly controllable facial editing[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 7673-7682.
[40]	JIANG Y M, HUANG Z Q, PAN X G, et al. Talk-to-edit: Fine-grained facial editing via dialog[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 13779-13788.
[41]	ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR, 2017: 2642-2651.
[42]	ARJOVSKY M, BOTTOU L. Towards principled methods for training generative adversarial networks[C]//Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview. net, 2017.
[43]	KARRAS T, AILA T, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: OpenRevier. net, 2018.
[44]	KARRAS T, LAINE S, AITTALA M, et al. Analyzing and improving the image quality of StyleGAN[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 8107-8116.
[45]	XIA W H, YANG Y J, XUE J H, et al. TediGAN: Text-guided diverse face image generation and manipulation[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 2256-2265.
[46]	RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021: 8748-8763.
[47]	LI L Z, BAO J M, ZHANG T, et al. Face X-ray for more general face forgery detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 5000-5009.
[48]	ZHAO H Q, WEI T Y, ZHOU W B, et al. Multi-attentional deepfake detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 2185-2194.
[49]	QIAN Y Y, YIN G J, SHENG L, et al. Thinking in frequency: Face forgery detection by mining frequency-aware clues[C]//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020: 86-103.
[50]	LI J M, XIE H T, LI J H, et al. Frequency-aware discriminative feature learning supervised by single-center loss for face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 6454-6463.
[51]	ZHENG Y L, BAO J M, CHEN D, et al. Exploring temporal coherence for more general video face forgery detection[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 15024-15034.
[52]	HALIASSOS A, MIRA R, PETRIDIS S, et al. Leveraging real talking faces via self-supervision for robust forgery detection[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 14930-14942.
[53]	CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 1800-1807.
[54]	TAN M X, LE Q V. EfficientNet: Rethinking model scaling for convolutional neural networks[C]//Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: PMLR, 2019: 6105-6114.
[55]	ZHAO T C, XU X, XU M Z, et al. Learning self-consistency for deepfake detection[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 15003-15013.
[56]	SHIOHARA K, YAMASAKI T. Detecting deepfakes with self-blended images[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 18699-18708.
[57]	CAO J Y, MA C, YAO T P, et al. End-to-end reconstruction-classification learning for face forgery detection[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 4103-4112.
[58]	DONG S C, WANG J, LIANG J J, et al. Explaining deepfake detection by analysing image matching[C]//Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022: 18-35.
[59]	WANG J K, WU Z X, OUYANG W H, et al. M2TR: Multi-modal multi-scale transformers for deepfake detection[C]//Proceedings of the 2022 International Conference on Multimedia Retrieval. Newark, USA: ACM, 2022: 615-623.
[60]	MASI I, KILLEKAR A, MASCARENHAS R M, et al. Two-branch recurrent network for isolating deepfakes in videos[C]//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020: 667-684.
[61]	RUFF L, GÖRNITZ N, DEECKE L, et al. Deep one-class classification[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018: 4390-4399.
[62]	HALIASSOS A, VOUGIOUKAS K, PETRIDIS S, et al. Lips don't lie: A generalisable and robust approach to face forgery detection[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 5037-5047.
[63]	CHUNG J S, ZISSERMAN A. Lip reading in the wild[C]//Proceedings of the 13th Asian Conference on Computer Vision. Taipei, China: Springer, 2017: 87-103.
[64]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.
[65]	TRAN D, WANG H, FEISZLI M, et al. Video classification with channel-separated convolutional networks[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE, 2019: 5551-5560.
[66]	RÖSSLER A, COZZOLINO D, VERDOLIVA L, et al. FaceForensics++: Learning to detect manipulated facial images[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE, 2019: 1-11.
[67]	NAGRANI A, CHUNG J S, ZISSERMAN A. VoxCeleb: A large-scale speaker identification dataset[C]//Proceedings of the 18th Annual Conference of the International Speech Communication Association. Stockholm, Sweden: ISCA, 2017: 2616-2620.
[68]	CHUNG J S, NAGRANI A, ZISSERMAN A. VoxCeleb2: Deep speaker recognition[C]//Proceedings of the 19th Annual Conference of the International Speech Communication Association. Hyderabad, India: ISCA, 2018: 1086-1090.
[69]	WANG K, WU Q Y, SONG L S, et al. MEAD: A large-scale audio-visual dataset for emotional talking-face generation[C]//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020: 700-717.
[70]	SUN J X, LI Q, WANG W N, et al. Multi-caption text-to-face synthesis: Dataset and algorithm[C]//Proceedings of the 29th ACM International Conference on Multimedia. China: ACM, 2021: 2290-2298.
[71]	WANG H, WANG Y T, ZHOU Z, et al. CosFace: Large margin cosine loss for deep face recognition[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 5265-5274.
[72]	RUIZ N, CHONG E, REHG J M. Fine-grained head pose estimation without keypoints[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition workshops. Salt Lake City, USA: IEEE, 2018: 2074-2083.
[73]	DENG Y, YANG J L, XU S C, et al. Accurate 3D face reconstruction with weakly-supervised learning: From single image to image set[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach, USA: IEEE, 2019: 285-295.
[74]	WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[75]	CHEN L L, LI Z H, MADDOX R K, et al. Lip movements generation at a glance[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 538-553.
[76]	CHUNG J S, ZISSERMAN A. Out of time: Automated lip sync in the wild[C]//Proceedings of 2016 Asian Conference on Computer Vision. Taipei, China: Springer, 2017: 251-263.
[77]	DENG J K, GUO J, XUE N N, et al. ArcFace: Additive angular margin loss for deep face recognition[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 4685-4694.
[78]	HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017: 6629-6640.
[79]	ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 586-595.
[80]	BIИ́KOWSKI M, SUTHERLAND D J, ARBEL M, et al. Demystifying MMD GANs[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: OpenReview. net, 2018.
[81]	MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose deepfakes and face manipulations[C]//Proceedings of 2019 IEEE Winter Applications of Computer Vision Workshops (WACVW). Waikoloa, USA: IEEE, 2019: 83-92.
[82]	KORSHUNOV P, MARCEL S. DeepFakes: A new threat to face recognition? Assessment and detection[EB/OL]. [2022-09-14]. https://arxiv.org/abs/1812.08685.
[83]	DeepfakeDetection. DeepfakeDetection github[EB/OL]. [2022-09-14]. https://github.com/ondyari/FaceForensics.
[84]	DOLHANSKY B, HOWES R, PFLAUM B, et al. The deepfake detection challenge (DFDC) preview dataset[EB/OL]. [2022-09-14]. https://arxiv.org/abs/1910.08854.
[85]	JIANG L M, LI R, WU W, et al. DeeperForensics-1.0: A large-scale dataset for real-world face forgery detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 2886-2895.
[86]	LI Y Z, YANG X, SUN P, et al. Celeb-DF (v2): A new dataset for deepfake forensics[EB/OL]. [2022-09-14]. https://arxiv.org/abs/1909.12962.
[87]	ZI B J, CHANG M H, CHEN J J, et al. WildDeepfake: A challenging real-world dataset for deepfake detection[C]//Proceedings of the 28th ACM International Conference on Multimedia. Seattle, USA: ACM, 2020: 2382-2390.
[88]	ZHOU T F, WANG W G, LIANG Z Y, et al. Face forensics in the wild[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 5774-5784.
[89]	HE Y N, GAN B, CHEN S Y, et al. ForgeryNet: A versatile benchmark for comprehensive forgery analysis[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 4358-4367.
[90]	LE T N, NGUYEN H H, YAMAGISHI J, et al. OpenForensics: Large-scale challenging dataset for multi-face forgery detection and segmentation in-the-wild[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 10097-10107.
[91]	SHAO R, WU T X, LIU Z W. Detecting and recovering sequential deepfake manipulation[C]//Proceedings of the 17th European Conference on Computer Vision. Tel Aviv, Israel: Springer, 2022: 712-728.
[92]	KHALID H, TARIQ S, KIM M, et al. FakeAVCeleb: A novel audio-video multimodal deepfake dataset[C]//Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1. Curran Associates, Inc, 2021.
[93]	CAI Z X, STEFANOV K, DHALL A, et al. Do you really mean that? Content driven audio-visual deepfake dataset and multimodal method for temporal forgery localization[EB/OL]. [2022-09-14]. https://arxiv.org/abs/2204.06228.
[94]	SANDERSON C. The vidtimit database[EB/OL]. [2022-09-14]. https://conradsanderson.id.au/vidtimit/.
[95]	KUZNETSOVA A, ROM H, ALLDRIN N, et al. The open images dataset v4[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.

文章信息

工作空间