您的位置 油气能源非常规气

ICCV 2021 | 阿里安全发现“打码图片”可攻击AI视觉系统

喜欢

来源：互联网
|
2021-08-30
|
0 条评论
|
我要分享
|
T小字　 T大字

报道

人有很强的抽象能力和联想力，例如一个由几块积木拼成的乐高玩具，小朋友也能轻易认出其中描述的场景。甚至几个像素，玩家也可以轻易认出这是哪个人物。

论文地址：https://arxiv.org/pdf/2108.09034.pdf

那么什么是对抗样本呢？

1 对抗样本

图1. 对抗攻击

2 “对抗样本可能是特征”

在对抗样本提出后，有各种各样的防御工作提出，其中对抗训练是最为有效的防御方式之一，但是对抗训练有非常明显的问题是：在稳健性（robustness）和准确率（accuracy）之间始终有一个平衡，即对抗训练提升模型稳健性的同时也导致的模型的准确率下降。为了解释这一现象，Ilyas等人给对抗样本的存在提出了一个假设：对抗样本不是bug，而是一组对人来说不可感知的特征。以人类感知为中心，人类所能察觉的特征就是robust feature，其他的特征则是non-robust。例如图2的狗狗，人类只会注意到其中的耳朵鼻子等显著特征(robust feature)。

图2. 鲁棒特征与非鲁棒特征

Ilyas等人通过一组巧妙的实验说明对抗样本其实是模型从数据中学习到一部分特征，尽管对人来说不可感知，但是对于模型来说是具有预测意义的。受Ilyas 等人工作启发，札奇研究团队试图从一个相反的角度来讨论一个潜在的攻击机制： 可否去掉一些对人来说微小而不可感知但是对于模型决策又重要的特征，从而形成对抗样本呢？

3 AdvDrop, 通过丢信息来制造对抗样本

他们对此猜想进行了验证，实验过程如下：

图3. 左侧AdvDrop，信息丢失越来越多，右侧PGD,对抗噪声越来越大

他们在这个工作中提出一个新的机制来生成对抗样本：相反于增加对抗扰动，我们通过扔掉一些不可察觉的图像细节来生成对抗样本。关于两种相反机制的说明如图3，当AdvDrop放宽丢掉的信息量的阈值epsilon，产生的对抗样本越来越趋近于一张灰色图片，伴随着图像存储量的降低。而相反的，PGD生成的对抗样本，随着干扰幅度的增大，越来越接近于无序噪音。

一张更细节的对比图4所示，从局部区域来看，PGD在图片的局部生成了更多的细节，表现为更丰富的色彩。而相反的，AdvDrop生成的对抗样本与原图相比失去了一些局部细节，表现在色彩精度的降低。

图4. PGD与AdvDrop局部色彩丰富度

4 他们是如何确定丢掉哪些区域的呢？

为了确定丢掉哪些区域的图片信息，并且保证扔掉的细节人们无法感知，他们提出一种通过优化量化表的方式来选择丢掉信息的区域以及丢掉的信息量的方法。此外，为了保证丢掉的细节对于人来说依然不可感知，要先将图像通过离散傅里叶变换从RGB转换到频域，再用量化表去量化一些频域的信息。频域操作相比于RGB的优点是，能更好的分离图像的细节信息（高频信息）和结构信息（低频信息），因此可以保证扔掉的细节对人来说不可感知。

图5. AdvDrop 算法流程

整个流程如图5所示，从优化上，可以被定义为：

其中D 和分别表示的是离散余弦变环及反变换，表示的是一个可微分的量化过程。

通常的量化，可以定义为：

但是因为量化函数不可微分，极大影响优化过程。因此，札奇研究团队参考了Gong等人的工作，通过引入可控tanh函数来渐进的逼近阶梯式的量化函数，所以：

其斜度可以由 %u3B1调整，如下图所示，经过量化函数可微处理，可以更准确的反向传播梯度从而更准确的估计出应该丢失信息的位置及量化的大小。

图6. 不同alpha 下tanh函数对量化函数的逼近程度

5 结果评估

用lpips比较AdvDrop及PGD在相同信息量变化下的视觉得分：从对抗样本的不可感知角度来说，在同样的感知得分下，丢信息操作允许操作的信息量要比加干扰允许的更大。从人类视觉上来说，相比于加噪，人眼对于局部平滑其实更为不敏感，从图7可见，随着量化表阈值的增大，AdvDrop生成的对抗样本的局部细节越少，例如蜥蜴鳞片的纹理：

图7. 不同预知下的攻击结果展示

从成功率上来说，无论是在目标攻击还是无目标攻击的设定下， AdvDrop有相当高的成功率来生成一个对抗样本。在目标攻击下，最高可以达到一个99.95%成功率。但相比于传统加噪的对抗攻击生成方式 (例如PGD，BIM) 可以轻易达到100%的成功率来说，依然是强度较弱的。

“我们觉得AdvDrop强度方面的局限可能来自于两方面：一方面是由于量化这样的方式，另一方面，“减信息”可以操作的空间相比于“加信息”的空间来说要小很多。”

他们也评估了AdvDrop在不同防御下的表现。目前主流防御方式主要分为两种，一种是 对抗训练，另一种是 基于去噪的防御方式。研究发现AdvDrop生成的对抗样本对于现阶段防御方式来说仍是一个挑战，尤其是基于去噪的防御方式。

图8. AdvDrop和PGD在Denoise操作下的细节展示

除了防御的角度，考虑到很多数据都是从网上收集而来，而网络传输中往往存在数据压缩过程，所以通过AdvDrop生成的对抗样本可能“更耐传输”。当然，另一个角度来想，也有可能对于正常图像数据来说，一些正常的数据压缩（例如jpeg）也许不经意间就引入了对抗样本。

6 总结

该工作也展示了AI模型另一个角度的局限性：对重要细节丢失的稳健性。

在这个工作中，仅仅探索了在频域上丢信息的操作，通过其他丢信息方式来生成对抗样本都是可以值得尝试的未来工作。

专注对AI的对抗样本和模型安全性进行研究的阿里安全高级算法专家越丰提醒，除了AI视觉场景，真实场景中也可能存在这种对抗攻击，例如针对某知名PS软件，只要提供具备对抗攻击性质的JPEG量化表，就能产出有“攻击性”的图片。

当然，“致盲AI”不是研究人员的目标，研究人员最终还是想发现AI模型的脆弱性，进一步提升AI安全。“在AI安全前沿技术上进行探索，一是为了让AI更安全，二是为了让AI助力安全，三是为解决具体社会问题寻找提效的新途径。”阿里安全图灵实验室负责人薛晖提醒，相比“事后弥补”，安全应前置，从源头守卫安全，对前沿技术进行研究布局，以科技创新造就最好的网络安全。

赠书福利

本次联合Springer为大家带来 5本周志华教授 亲笔签名的 《Machine Learning》正版新书。