面向深度伪造的溯源取证方法
王丽娜, 聂建思, 汪润, 翟黎明    
武汉大学 空天信息安全与可信计算教育部重点实验室, 武汉 430072
摘要:近年来, 生成对抗网络(GAN)的迅速发展使得合成图像越来越逼真, 对个人和社会造成了极大的威胁。现有的研究致力于被动地鉴别伪造产品, 但在真实应用场景下通常面临通用性不足和鲁棒性差等两大难题。因此, 该文提出了一种面向深度伪造的溯源取证方法, 将秘密信息隐藏到图像中以追踪伪造图像的源头。设计了一个端到端的深度神经网络, 该网络由嵌入网络、GAN模拟器和恢复网络等3部分组成。其中, 嵌入网络和恢复网络分别用于实现秘密信息的嵌入和提取, GAN模拟器用于模拟各种GAN的图像变换。实验中在已知GAN的篡改下恢复图像的平均归一化互相关(NCC)系数高于0.9, 在未知GAN的篡改下平均NCC也能达到0.8左右, 具有很好的鲁棒性和通用性。此外, 该方法中嵌入的秘密信息具有较好的隐蔽性, 平均峰值信噪比(PSNR)在30 dB左右。
关键词图像合成与篡改    深度伪造    溯源取证    
Analyzing deepfake provenance and forensics
WANG Lina, NIE Jiansi, WANG Run, ZHAI Liming    
Key Laboratory of Aerospace Information Security and Trusted Computing, Wuhan University, Wuhan 430072, China
Abstract: In recent years, the rapid development of generative adversarial networks (GAN) has made synthesized images more and more realistic, which poses great threats to individuals and society. Existing research has focused on passively identifying deepfakes, but real-world applications are usually insufficiently general and robust. This paper presents a method for deepfake provenance and forensics. Deepfakes hide secret information in facial images to track the source of the forged image. An end-to-end deep neural network was designed to include an embedding network, a GAN simulator, and a recovery network. The embedding network embeds the secret information in the picture while the recovery network extracts the information. The GAN simulator simulates various GAN-based image transformations. The average normalized cross correlation coefficient (NCC) of the restored images after tampering with known GANs is higher than 0.9 and the average NCC reaches around 0.8 with tampering by unknown GANs, which shows good robustness and generalization. In addition, the secret embedded information is well concealed and the average peak signal to noise ratio (PSNR) is about 30 dB.
Key words: image synthesis and manipulation    deepfakes    provenance and forensics    

近些年来,生成对抗网络(generative adversarial network, GAN)及其变体[1]在图像和语音合成领域取得了显著进展,合成图像也越来越自然且逼真。这些基于深度学习的多媒体合成与篡改技术被业界统称为深度伪造(deepfake)[2]。为了应对深度伪造带来的潜在安全威胁,亟需开发有效的防御机制,然而现有工作主要着眼于研究深度伪造被动防御方法,普遍面临2个难题:1) 通用性差。难以应对未知造假方法生成的深度伪造产品。不断升级的GAN会抹除或破坏伪造痕迹,生成更高质量的伪造媒体,使其更加难以分辨。然而现有的检测器大多只在由有限的已知GAN合成的数据集上[3]进行评估,在处理未知合成手段上的有效性不可知。2) 鲁棒性弱。现有的深度伪造检测方法主要利用图像合成中可见或不可见的伪影来辨别真假。这类方法相对脆弱,在真实的环境中容易遭受压缩和噪声等扰动攻击[4]和对抗攻击[5]的安全威胁,因此难以应用于现实世界中的深度伪造检测。

面对被动防御方法的不足,本文提出了一种主动防御方法来对抗深度伪造,该方法区别于被动防御中基于数据驱动的特征学习,通过将用于溯源的秘密信息隐藏到要保护的面部图像中,来判断图像是否被恶意修改,并追踪深度伪造的源头。

图 1为深度伪造的攻击和取证模型。在社交网络中,用户上传到社交平台的带有个人面孔的图像可以被任意用户查看和下载,攻击者可以轻松获取用户的图像并对它进行恶意篡改。若攻击者将合成与篡改的伪造图像上传到社交平台,配上语音制作成具有丰富信息的伪造视频,则会导致虚假信息的传播并致使受害者声誉受损。本文在用户上传的图片中主动嵌入不可见的秘密信息,当社交网络传播过程中通过身份匹配到可疑的伪造图像时,可以请求平台通过恢复嵌入的隐蔽信息进行验证。如果能从可疑图像中恢复嵌入的秘密信息,就可以证明该图像是由攻击者恶意篡改原始图像获得的。

图 1 深度伪造的攻击和取证模型

本文从溯源取证的角度出发,计划借鉴数字水印的思想,但是面向深度伪造的具体应用场景,传统的数字水印方法面临着严峻的挑战。一方面,由于用于深度伪造的GAN的多样性,攻击者用来合成深度伪造图像所采用的GAN通常是未知的。另一方面,相比一般的信号处理攻击,基于GAN的篡改合成对图像造成的破坏更加剧烈。对此,本文设计了一种端到端的深度数字水印嵌入与提取网络。其中一个嵌入网络用于嵌入秘密信息,一个恢复网络用于提取嵌入的秘密信息,一个GAN模拟器用于在网络训练过程中模拟各种GAN的图像变换,使得恢复网络能在各种基于GAN的编辑与修改下都有效地恢复嵌入的秘密信息。最后,设计了一个损失函数来限制秘密信息的嵌入位置,旨在提高方法的鲁棒性。

为验证所提方法是否满足鲁棒性、通用性和隐蔽性等3大基本的要求,采用了目前最新的3种用于图像合成与篡改的GAN模型(AttGAN[6]、STGAN[7]、StarGAN[8])在面部数据集CelebA[9]上进行了实验。

1 背景 1.1 深度伪造被动检测

面对深度伪造带来的威胁,现有研究大多致力于检测图像是否由人工智能方法特别是GAN合成。早期工作借鉴传统取证的思路,利用共生矩阵、相机硬件噪声等实施检测。基于深度学习的伪造过程会在图像的面部区域留下明显的视觉伪影如牙齿细节缺失、头部姿势不一致[10]等,但不断升级的深度伪造技术可以轻松弥补这类失真。对此,有研究人员探究GAN设计上的固有缺陷,并发现卷积神经网络中的上采样结构会在合成图像的频谱图中留下周期性的伪影[11]。基于该发现,Durall等[12]提取图像Fourier功率谱的一维表示作为分类特征,Qian等[4]融合频率感知分解(frequency-aware decomposition, FAD)和局部频率统计(local frequency statistics, LFS)两种频域特征进行面部伪造检测。然而频域特征往往可以通过简单地使用主成分分析进行面部重建而轻松抹除。上述被动检测方法在真实场景下往往面临鲁棒性差和通用性不足的问题。

1.2 数字水印

数字水印[13]是一种常见的数字版权保护方式。水印是通过信号处理方法嵌入图像中的一段文字或图像。嵌入的水印应该是不可见的,并且对各种图像处理手段具有鲁棒性。当图像被盗版时,攻击者不知道正确的提取算法,甚至不知道图像是否嵌入了水印,而只有图像所有者可以提取有效水印从而证明其版权。传统的图像水印根据嵌入位置可以分为空域水印和频域水印。空域水印直接修改图像中的像素值;频域水印首先分解图像频率,然后将水印嵌入到频域的变换系数中。近年来,随着深度学习的广泛应用,也陆续出现了基于深度神经网络的图像水印方法。但是,现有的水印方法只能抵抗一般的信号处理攻击如噪声、压缩等,而无法防御深度伪造。

2 方法 2.1 研究动机

针对深度伪造被动防御方法的不足,本文提出了一种深度伪造主动防御思路,受传统数字水印思想的启发,在图像被恶意篡改前在图像中隐藏一种可以验证图像身份的信息,但与传统的数字水印相比,被嵌入的水印需要在各种基于GAN的剧烈转换中存活下来,并可以被有效地提取。

2.2 方案设计 2.2.1 网络架构

本文提出的面向深度伪造的溯源取证方法框架如图 2所示,基础结构由3个组件构成,分别是嵌入网络、GAN模拟器和恢复网络。

图 2 面向深度伪造的溯源取证方法框架

1) 嵌入网络。嵌入网络由2个部分组成,即编码器和隐藏网络。编码器负责编码待嵌的秘密图像,接受原始秘密图像作为输入,并输出编码过的秘密图像,其中输出图像的分辨率应和载体图像保持一致。隐藏网络将编码过的秘密图像嵌入到要保护的图像中,具体来说就是输入载体图像和待嵌秘密图像,输出载密图像。嵌入的秘密图像相对于载体图像应该是不可感知的,以确保生成的载密图像保持较高的视觉质量。

2) GAN模拟器。GAN模拟器接收载密图像并模拟基于GAN的篡改来生成深度伪造图像,可使用多种GAN实现,所得图像作为恢复网络的输入。

3) 恢复网络。恢复网络接受GAN模拟器的输出,并学习从经由GAN篡改的载密图像中有效地恢复秘密图像,以实现溯源取证的目的。

2.2.2 损失函数

上述网络的损失函数由4部分组成。首先,载体图像矩阵C和载密图像矩阵C应尽可能相似。其次,恢复出来的秘密图像矩阵S也应与嵌入的秘密图像矩阵S尽可能相似,即分别最小化LC=‖C-C‖和LS=‖S-S‖,其中‖·‖表示L2范式。最后,1张RGB彩色图像包含3个通道,每个通道由8个位平面组成。与低位平面相比,图像的高位平面在面临剧烈的变换时极大概率保持不变。本文用CMCL分别表示原始载体图像的高四位平面矩阵和低四位平面矩阵,并强制让秘密图像尽可能多地嵌入到载体图像的高四位平面中,则对应的损失函数可以表示为L CM=‖ CM- CM′‖和L CL= ‖ CL- CL′‖。

综上所述,端到端深度水印网络的训练目标如下:

$ L=L_{\mathrm{c}}+\alpha L_{\mathrm{s}}+\beta L_{\mathrm{CM}}+\gamma L_{\mathrm{cL}}. $

其中αβγ是权重因子。

3 实验设置 3.1 数据和模型

本文方法旨在应对常见的两类基于GAN的深度伪造即全脸合成和局部编辑。为此,选择了3种最新的人脸篡改GAN模型即AttGAN[6]、STGAN[7]和StarGAN[8],来合成深度伪造图像。对于全脸合成,使用每种GAN对图像进行重构。对于局部编辑,在每个GAN下分别选择3种不同的属性对图像进行对应的编辑获得部分篡改的图像。在AttGAN下,修改人物的嘴巴开合程度,为其添加胡须,并设置为秃头。在STGAN下,让人物看起来更年老,将发色修改为金色,并将性别统一设置为女性。在StarGAN下,将人物发色修改为棕色,调整肤色为白色,并添加眼镜等配饰。

实验中使用的所有图像来自人脸数据集CelebA[9],它包含202 599张图像且每张图像对应40个二进制属性标注。此外,它还提供了一个对齐版本,将大小不一致的自然图像统一裁剪为128×128像素。实验中将对齐版本的CelebA以8∶1∶1的比例划分为训练集、验证集和测试集。

3.2 网络实现

本文用Adam优化器联合训练嵌入网络和恢复网络,其中,学习率设置为0.001,损失函数中的超参数设置为α=0.75、β=0.5、γ=0.1。编码器的组成采用CycleGAN中的U-Net结构。它将任意大小的输入图像调整为128×128像素的固定分辨率,且编码输出的通道数与网络输入的通道数保持一致。隐藏网络由5个卷积层组成,每层有50个滤波器,滤波核大小为3×3、4×4和5×5。GAN模拟器接收载密图像并在此基础上合成虚假图像。在实验中,分别选择AttGAN、STGAN和StarGAN来构造模拟器。恢复网络由多个卷积层堆叠而成,其中每个卷积层的卷积核为3×3,边界填充为1,步幅为1。

3.3 对比的方法

本文对比了3种代表性的数字水印方法,即空域水印方法[14]、频域水印方法[15]和基于深度学习的水印方法[16]。由于传统水印方法的嵌入容量限制,选择128×128像素的二进制图像作为空域水印方法的秘密图像。对于频域水印方法,嵌入的秘密图像是8×8像素的二进制图像。而本文的方法和基于深度学习的水印方法都可以嵌入与载体图像大小相同的秘密图像,即128×128像素的彩色图像。

3.4 评估指标

本文通过比较原始秘密图像和恢复出来的秘密图像之间的相似性来说明方法的通用性、鲁棒性和隐蔽性。具体来说,通过归一化互相关(normalized cross correlation, NCC)、结构相似性(structural similarity, SSIM)和平均像素差异(average pixel discrepancy, APD)来量化视觉相似性,采用图像块感知相似度(learned perceptual image patch similarity, LPIPS)来量化感知相似性。此外,还通过峰值信噪比(peak signal to noise ratio, PSNR)来评估载密图像相对于载体图像的质量损失。

4 实验结果

本文从不可感知性、对深度伪造和信号处理的鲁棒性及通用性等3个方面来评估方法的有效性,并开展对比实验来说明本文方法相比传统水印方法在深度伪造取证场景下的优越性。其中,除通用性实验是在AttGAN上训练网络并在3种GAN上测试,其余实验均是分别在3种GAN上训练网络并进行测试。

4.1 不可感知性

为了评估嵌入的秘密图像相对载体图像的不可感知性,对测试集图像嵌入秘密图像得到载密图像,并计算载密图像和载体图像之间的PSNR、SSIM、LPIPS和APD,均值如表 1所示。其中,载密图像的平均峰值信噪比在30 dB左右,表明了肉眼无法察觉添加的秘密图像。需要注意的是,表中的统计数据取自极限测试实验,其中嵌入的秘密图像与载体图像具有相同的分辨率和位深度,且嵌入幅度最大化。在实际应用场景中,可以通过寻找合适的参数以在鲁棒性和不可感知性之间找到更好的平衡点。

表 1 各种GAN深度伪造下秘密图像的不可感知性评估
GAN模型 平均PSNR/dB 平均SSIM 平均APD 平均LPIPS
AttGAN 26.39 0.854 2 9.794 7 0.134 9
STGAN 29.78 0.905 1 6.468 5 0.114 3
StarGAN 32.16 0.946 6 4.770 6 0.020 3

4.2 鲁棒性 4.2.1 对深度伪造的鲁棒性

表 2为所提出的方法在AttGAN、STGAN和StarGAN下恢复秘密图像的鲁棒性表现。结果显示恢复出来的秘密图像相比原始秘密图像的平均NCC均大于0.9,这说明本文的方法理论上能以100%的置信度恢复嵌入的秘密图像,验证了在真实应用场景下的实用性。

表 2 各种GAN深度伪造下恢复的秘密图像的鲁棒性评估
GAN模型 平均NCC 平均SSIM 平均APD 平均LPIPS
AttGAN 0.945 9 0.774 9 15.67 0.214 1
STGAN 0.979 9 0.877 3 9.08 0.128 0
StarGAN 0.967 4 0.844 1 12.22 0.159 6

4.2.2 对信号处理的鲁棒性

本文考虑了4种信号处理攻击,包括Gauss滤波、椒盐噪声、JPEG压缩和随机丢弃。在每种攻手手段下以不同级别的攻击强度对载密图像实施攻击,计算从攻击后的载密图像中恢复出的秘密图像和嵌入的秘密图像之间的NCC,实验结果如图 3所示。可以看到,对于所有信号处理攻击,恢复出来的秘密图像的平均NCC随着载密图像失真强度的增加而略有下降。然而,即使攻击强度在较大范围内变化,大多数情况下平均NCC仍然可以达到0.94以上,因此本文的方法具有很强的鲁棒性。

图 3 各种GAN深度伪造和信号处理攻击下恢复秘密图像的鲁棒性评估

4.3 通用性

尽管现有的深度伪造检测方法显示出较好的被动取证能力,但他们通常无法应对未知的GAN。而在本文的方法中,每种GAN对应一个模拟器实例。当未来出现新的GAN时,本文的方法可以通过简单的迁移快速适应新兴的GAN。目前每次只使用一种GAN实现模拟器,未来将设计具有通用结构的GAN模拟器,以抵抗更多类型的深度伪造。

本文的方法泛化能力实验结果如表 3所示。数据显示在没有参与训练的GAN上得到的NCC均维持在可接受的较高水平,平均NCC能达到0.8左右,说明本文的方法具有很好的通用性。

表 3 使用AttGAN训练时恢复的秘密图像的通用性评估
GAN模型 平均NCC 平均SSIM 平均APD 平均LPIPS
AttGAN 0.956 1 0.778 6 14.01 0.210 6
STGAN 0.899 2 0.694 3 22.12 0.293 3
StarGAN 0.742 5 0.561 9 43.34 0.388 2

4.4 对比实验

表 4为不同的方法面对深度伪造攻击的性能表现。需要注意的是,频域水印方法[15]所能嵌入的秘密图像尺寸太小,因此无法执行基于块的LPIPS计算,故表 4中未提供对应的数据。可以看出,文[14-15]的传统水印方法无法在GAN攻击中幸存,即使面对操作强度相对较弱的图像重建,上述水印方法仍然无法从被攻击的载密图像中恢复秘密图像,这表明传统水印方法在防御深度伪造时是无效的。而文[16]基于深度学习的水印方法的表现优于传统水印方法,但仍然远远落后于本文方法。总体来说,本文的方法在面对深度伪造攻击时展现了明显优于其他3种方法的取证性能。

表 4 不同水印方法面对深度伪造攻击的鲁棒性评估
方法 平均NCC 平均SSIM 平均APD 平均LPIPS
AttGAN STGAN StarGAN AttGAN STGAN StarGAN AttGAN STGAN StarGAN AttGAN STGAN StarGAN
文[14] -0.007 2 0.001 4 0.000 3 0.007 5 0.007 9 0.007 5 132.49 130.06 127.61 1.193 4 1.228 2 1.242 9
文[15] 0 -0.015 5 0 0.006 1 0.012 6 0.006 4 149.42 152.24 151.38
文[16] 0.083 7 0.133 7 0.097 9 0.255 2 0.245 6 0.278 2 66.05 64.55 65.68 0.604 6 0.649 7 0.634 9
本文 0.945 9 0.979 9 0.967 4 0.774 9 0.877 3 0.844 1 15.67 9.08 12.22 0.214 1 0.128 0 0.159 6

5 结论

本文提出了一种面向深度伪造的溯源取证方法。设计了一种端到端的深度学习方法来隐藏和恢复秘密图像,并设计了GAN模拟器使得秘密图像可以应对基于GAN的编辑与篡改。此外,设计了一种损失函数限制秘密图像的嵌入区域,从而达到增强鲁棒性的目的。本文方法在对抗3种常见深度伪造模型(AttGAN、STGAN和StarGAN)时性能良好。嵌入的秘密图像在保证不可感知性的前提下,可以在基于GAN的强烈变换下恢复,且对多种面向图像的信号处理攻击具有较好的鲁棒性。此外,通过实验证明了本文方法具有较好的通用性且优于传统的水印方法,显示了该方法应用于真实社交网络中保护用户隐私的可能。下一步将探究基于数字水印的主动防御方法在音视频深度伪造上的有效性,并使用更先进的深度神经网络模型扩展水印的嵌入与提取。

参考文献
[1]
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. DOI:10.1145/3422622
[2]
VERDOLIVA L. Media forensics and DeepFakes: An overview[J]. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(5): 910-932. DOI:10.1109/JSTSP.2020.3002101
[3]
LI Y Z, YANG X, SUN P, et al. Celeb-DF: A large-scale challenging dataset for deepfake forensics [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE Press, 2020: 3207-3216.
[4]
QIAN Y Y, YIN G J, SHENG L, et al. Thinking in frequency: Face forgery detection by mining frequency-aware clues [M]// VEDALDI A, BISCHOF H, BROX T, et al. 16th European Conference Proceedings of the European Conference on Computer Vision. Cham, Switzerland: Springer, 2020: 86-103.
[5]
CARLINI N, FARID H. Evading deepfake-image detectors with white and black-box attacks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, WA, USA: IEEE Press, 2020: 658-659.
[6]
HE Z L, ZUO W M, KAN M N, et al. AttGAN: Facial attribute editing by only changing what you want[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5464-5478. DOI:10.1109/TIP.2019.2916751
[7]
LIU M, DING Y K, XIA M, et al. STGAN: A unified selective transfer network for arbitrary image attribute editing [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE Press, 2019: 3673-3682.
[8]
CHOI Y, CHOI M, KIM M, et al. StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE Press, 2018: 8789-8797.
[9]
LIU Z W, LUO P, WANG X G, et al. Deep learning face attributes in the wild [C]// 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Press, 2015: 3730-3738.
[10]
YANG X, LI Y Z, LYU S W. Exposing deep fakes using inconsistent head poses [C]// ICASSP 2019—2019 IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton, UK: IEEE Press, 2019: 8261-8265.
[11]
ZHANG X, KARAMAN S, CHANG S F. Detecting and simulating artifacts in GAN fake images [C]// 2019 IEEE International Workshop on Information Forensics and Security. Delft, Netherlands: IEEE Press, 2019: 1-6.
[12]
DURALL R, KEUPER M, PFREUNDT F J, et al. Unmasking deepfakes with simple features [J/OL] [2021-10-18]. https://arxiv.org/pdf/1911.00686.pdf.
[13]
郝彦军, 朱琴, 王丽娜, 等. 数字水印演化设计[J]. 计算机工程, 2006, 32(6): 157-159.
HAO Y J, ZHU Q, WANG L N, et al. Digital watermarking design with evolutionary computation[J]. Computer Engineering, 2006, 32(6): 157-159. DOI:10.3969/j.issn.1000-3428.2006.06.054 (in Chinese)
[14]
MUYCO S D, HERNANDEZ A A. Least significant bit hash algorithm for digital image watermarking authentication [C]// Proceedings of the 2009 5th International Conference on Computing and Artificial Intelligence. New York, NY, USA: ACM, 2019: 150-154.
[15]
XU H C, KANG X B, WANG Y H, et al. Exploring robust and blind watermarking approach of colour images in DWT-DCT-SVD domain for copyright protection[J]. International Journal of Electronic Security and Digital Forensics, 2018, 10(1): 79-96. DOI:10.1504/IJESDF.2018.089215
[16]
ZHANG C N, BENZ P, KARJAUV A, et al. UDH: Universal deep hiding for steganography, watermarking, and light field messaging[J]. Advances in Neural Information Processing Systems, 2020, 33: 10223-10234.