“从一些方面看,机器视觉比人类视觉更好。但是现在研究人员找到了一类能够轻松‘愚弄’机器视觉的‘对抗性图像’。”——来自arXiv的Emerging Technology。
现代科学最了不起的进步之一就是机器视觉的兴起。最近几年,新一代机器学习技术已经改变了计算机“看见”世界的方式。
现在,机器在人脸识别和物品识别方面已经超越了人类,并将改变无数基于视觉的任务,例如驾驶、安全监控等等。机器视觉现在简直是超人。
但是有一个问题出现了。机器视觉研究人员已经注意到,这项新技术有一些让人担心的弱点。实际上,机器视觉算法有一个阿喀琉斯之踵,使它们被一些经过微扰的图像捉弄,而这些图像对于人类来说非常浅显易见。
这些经过修改的图像被称为“对抗性图像,成为一种重要的威胁。“在人脸识别领域,一个对抗性例子可能由脸部非常细微的标记构成,因此人会正确识别出图像中的身份,而机器学习系统会将其识别为一个不同的人。”谷歌Brain的Alexey Kurakin、Samy Bengio以及非营利机构OpenAI的Ian Goodfellow说。
他们在论文中称,这种对抗性攻击除了能影响完全在计算机中运行的系统,例如逃避垃圾邮件过滤器或病毒软件监测器,还能影响在物理世界中运行的系统,例如通过摄像头及其他传感器感知世界的机器人、视频监控系统以及图像和声音分类的移动应用。
因为机器视觉还非常新,我们对于对抗性图像还知之甚少。没人知道如何最好地创造它们、如何用它们来愚弄机器视觉系统、或者如何预防此类攻击。
现在,Kurakin及同事的研究开始改变这一现状,他们对对抗性图像首次展开了系统研究。他们的研究说明了机器视觉系统在此类攻击之下多么脆弱。
团队开始使用了一个机器视觉研究的标准数据库,名叫 ImageNet。这个数据库的图像根据显示的内容进行分类。一个标准测试是基于这个数据库的一部分来训练一个机器视觉算法,然后利用数据库的另一个部分来测试算法能否良好进行分类。
测试表现的测量方法是统计算法中最高五项回答、甚至最高一项回答中正确分类的频率(被称为前五准确率和前一准确率),或者中前五项或一项中回答不正确的频率(其前五错误率或者前一错误率)。
最好的机器视觉系统之一是谷歌的 Inception v3 算法,其前五错误率为3.46%。进行同样任务的人类的前五错误率为大约5%,因此 Inception v3 确实具有超人般的能力。
Kurakin和同事通过3种不同的方式修改了50,000张 ImageNet 的图像,从而创造了一个对抗性图像的数据库。他们的方法是基于这个概念:神经网络处理信息,来将一个图像与某个类别匹配起来。这项处理所需的信息量被称为交叉熵,会体现出匹配任务的难度。
他们的第一个算法对图像进行了一个小改变,试图最大化这项交叉熵。他们的第二个算法只是将这个过程迭代,进一步改变图像。
这两项算法都改变了图像,使其更难正确分类。“这些方法可以造成一些比较无聊的错误分类,例如将一种雪橇狗错认为另一种雪橇狗。”
他们最终的算法有更聪明的方法。这种对图像的改变让机器视觉系统出现某种特定分类错误,更倾向于最不可能的类别。“最不可能的分类通常是与正确分类非常不同的,因此这项方法会造成更有趣的错误,例如将一只狗错认为一架飞机。” Kurakin 及同事说。
然后,他们测试了谷歌 Inception v3 算法能否良好分类50,000个对抗性图像。
这两个简单的算法大大降低了前五和前一精确度。但是他们最强大的算法——最不可能的分类法——将所有50,000个图像的精确度迅速减少至零。(团队未透露算法在指引错误分类方面是否成功。)
这意味着对抗性图像是一个重要威胁,但是这种方法也有一种潜在的弱点。所有对抗性图像都是直接输入机器视觉系统的。
但是在真实世界中,图像总是经过摄像头系统的改变。如果这项过程中和了其效果,一个对抗性图像算法就是无用的。因此,弄清楚算法如何应对真实世界的改变就非常重要。
为了测试,Kurakin 和同事讲所有对抗性图像和原始图像打印出来,并手动用一个 Nexus 5 智能手机进行拍照。然后,再将这些经过转变的对抗性图像输入机器视觉系统。
Kurakin 和同事说最不可能类别方法受到这些转变的影响最大,不过其他方法的承受度都还可以。换句话说,对抗性图像算法在真实世界中的确是一种威胁。“很大一部分用原创网络制造的对抗性图像被错误分类了,即便是通过摄像头输入分类器。”团队称。
这项研究非常有趣,对于机器视觉的阿喀琉斯之踵带来了新的认识。并且未来还有很多研究要做。Kurakin 和同事希望针对其他类型的视觉系统开发对抗性图像,使其更加高效。
这在计算机安全领域会引发讨论。机器视觉系统现在比人类更能够识别人脸,因此很自然我们会想到在更多的领域使用该技术,从解锁智能手机和家门,到护照管控以及银行账号的身份信息。但是 Kurakin 和同事提出了轻松“愚弄”这些系统的可能性。
最近几年,我们经常听到机器视觉系统能有多好。现在,我们才发现他们还有蠢蠢的阿喀琉斯之踵。