机器视觉的阿喀琉斯之踵

发布时间：2016-07-29 来源：逸炫类型：国际资讯人浏览

关键字：

机器视觉监控识别

导读：

现在，机器在人脸识别和物品识别方面已经超越了人类，并将改变无数基于视觉的任务，例如驾驶、安全监控等等。机器视觉现在简直是超人。“从一些方面看，机器视觉比人类视觉更好。但是现在研究人员找到了一类能够轻松‘愚弄’机器视觉的‘对抗性图像’。”

“从一些方面看，机器视觉比人类视觉更好。但是现在研究人员找到了一类能够轻松‘愚弄’机器视觉的‘对抗性图像’。”——来自arXiv的Emerging Technology。

现代科学最了不起的进步之一就是机器视觉的兴起。最近几年，新一代机器学习技术已经改变了计算机“看见”世界的方式。

机器视觉识别监控

现在，机器在人脸识别和物品识别方面已经超越了人类，并将改变无数基于视觉的任务，例如驾驶、安全监控等等。机器视觉现在简直是超人。

但是有一个问题出现了。机器视觉研究人员已经注意到，这项新技术有一些让人担心的弱点。实际上，机器视觉算法有一个阿喀琉斯之踵，使它们被一些经过微扰的图像捉弄，而这些图像对于人类来说非常浅显易见。

这些经过修改的图像被称为“对抗性图像，成为一种重要的威胁。“在人脸识别领域，一个对抗性例子可能由脸部非常细微的标记构成，因此人会正确识别出图像中的身份，而机器学习系统会将其识别为一个不同的人。”谷歌Brain的Alexey Kurakin、Samy Bengio以及非营利机构OpenAI的Ian Goodfellow说。

他们在论文中称，这种对抗性攻击除了能影响完全在计算机中运行的系统，例如逃避垃圾邮件过滤器或病毒软件监测器，还能影响在物理世界中运行的系统，例如通过摄像头及其他传感器感知世界的机器人、视频监控系统以及图像和声音分类的移动应用。

因为机器视觉还非常新，我们对于对抗性图像还知之甚少。没人知道如何最好地创造它们、如何用它们来愚弄机器视觉系统、或者如何预防此类攻击。

现在，Kurakin及同事的研究开始改变这一现状，他们对对抗性图像首次展开了系统研究。他们的研究说明了机器视觉系统在此类攻击之下多么脆弱。

团队开始使用了一个机器视觉研究的标准数据库，名叫 ImageNet。这个数据库的图像根据显示的内容进行分类。一个标准测试是基于这个数据库的一部分来训练一个机器视觉算法，然后利用数据库的另一个部分来测试算法能否良好进行分类。

测试表现的测量方法是统计算法中最高五项回答、甚至最高一项回答中正确分类的频率（被称为前五准确率和前一准确率），或者中前五项或一项中回答不正确的频率（其前五错误率或者前一错误率）。

最好的机器视觉系统之一是谷歌的 Inception v3 算法，其前五错误率为3.46%。进行同样任务的人类的前五错误率为大约5%，因此 Inception v3 确实具有超人般的能力。

Kurakin和同事通过3种不同的方式修改了50,000张 ImageNet 的图像，从而创造了一个对抗性图像的数据库。他们的方法是基于这个概念：神经网络处理信息，来将一个图像与某个类别匹配起来。这项处理所需的信息量被称为交叉熵，会体现出匹配任务的难度。

他们的第一个算法对图像进行了一个小改变，试图最大化这项交叉熵。他们的第二个算法只是将这个过程迭代，进一步改变图像。

这两项算法都改变了图像，使其更难正确分类。“这些方法可以造成一些比较无聊的错误分类，例如将一种雪橇狗错认为另一种雪橇狗。”

他们最终的算法有更聪明的方法。这种对图像的改变让机器视觉系统出现某种特定分类错误，更倾向于最不可能的类别。“最不可能的分类通常是与正确分类非常不同的，因此这项方法会造成更有趣的错误，例如将一只狗错认为一架飞机。” Kurakin 及同事说。

然后，他们测试了谷歌 Inception v3 算法能否良好分类50,000个对抗性图像。

这两个简单的算法大大降低了前五和前一精确度。但是他们最强大的算法——最不可能的分类法——将所有50,000个图像的精确度迅速减少至零。（团队未透露算法在指引错误分类方面是否成功。）