【渠道新闻】Facebook骚操作自己和自己的AI干仗

【渠道新闻】Facebook骚操作自己和自己的AI干仗

2020-07-28 18:24:46 分享到：

INSTAGRAM鼓励它数十亿用户向其照片添加了滤镜，以使其更具共享性。在2019年2月，一些 Instagram用户开始在编辑照片时考虑了不同的受众：Facebook的自动色情过滤器。

Facebook在很大程度上依靠由人工智能驱动的审核，并表示该技术特别擅长发现露骨内容。但是一些用户发现，他们可以通过在违反规则的皮肤显示上覆盖诸如网格或点之类的图案，来越过Instagram的过滤器。这意味着Facebook的人类内容审阅者需要做更多的工作。

Facebook的AI工程师通过培训他们的系统来识别具有这种模式的被禁止图像，对此做出了回应，但是这种解决方法是短暂的。Facebook负责计算机视觉工作的Manohar Paluri说，用户"开始以不同的模式进行适应"。他的团队最终通过添加另一个机器学习系统来驯服避免AI裸露的问题，该系统可以检查照片上的网格等图案，并通过模拟附近的像素来尝试将其编辑掉。这个过程并不能完美地再现原始图像，但是它可以使色情分类器完成工作而不会被绊倒。

那场猫鼠事件促使Facebook在几个月后促使成立了一个" AI红色团队"，以更好地了解其AI系统的漏洞和盲点。其他大型公司和组织，包括Microsoft和政府承包商，也正在组建类似的团队。

这些公司近年来花费大量精力来部署AI系统，以完成诸如了解图像或文本内容的任务。现在，一些早期采用者正在询问如何欺骗这些系统以及如何保护它们。"我们从'嗯？这些东西有用吗？到现在，它对生产至关重要。" Facebook首席技术官Mike Schroepfer说。"'如果我们的自动化系统出现故障，或者可以大规模颠覆，那将是一个大问题。"

保护AI系统的工作与常规计算机安全性相似。Facebook的AI red team的名字来自一个演习用语，在演习中，为组织工作的黑客通过扮演攻击者的角色来探究其防御措施。他们知道，随着对手提出新的把戏和攻击手段，他们部署的任何修补程序都可能会避开。

但是，在其他方面，缓解对AI系统的攻击与防止传统黑客攻击有很大不同。防御者担心的漏洞不太可能是特定的，可修复的错误，而更有可能反映当今AI技术的内置限制。"这与网络安全不同，因为它们是固有的，"负责运营联邦研究计划的非营利组织MITER Corporation的AI漏洞研究人员Mikel Rodriguez说。"您可以编写一种完全安全的机器学习模型，但仍然容易受到攻击。"

对AI安全的不断增加的投资反映了Facebook，Google和其他公司如何更加思考部署AI的道德后果。这两个问题都源于一个事实，即尽管现有的AI技术有用，但它狭窄且不灵活，并且无法像人们所能适应的那样适应不可预见的情况。

越来越多的机器学习研究论文库记录了一些技巧，例如仅改变照片中的几个像素以使AI软件产生幻觉并检测不存在的物体。一项研究表明，可以将Google图像识别服务归类为将步枪归类为直升机；另一项研究用3D打印的物体具有多面的形状，使它们对于中国百度原型自动驾驶汽车的激光雷达软件不可见。其他攻击包括"数据中毒"，在这种情况下，对手会更改用于训练机器学习算法的数据，从而损害其性能。

MITER正在与运输和国家安全等领域的政府客户合作，探讨如何最大程度地减少此类漏洞。罗德里格斯拒绝透露细节，但他说，就像在Facebook上一样，一些美国政府机构也想知道他们正在构建关键功能的AI可能出什么问题。他的团队的项目包括展示可以提取用于训练面部识别算法的面孔，以及欺骗安装在高空飞行的飞机上的机器学习软件以解释其周围环境。国防部计划使AI成为美军日益重要的组成部分，从发现战场上的威胁到医疗保健和后勤管理人员。

Facebook的AI红色团队由计算机视觉专家克里斯蒂安·坎顿（Cristian Canton）领导，他于2017年加入该公司，并管理着一个研究图像审核过滤器的小组。他为自己的团队在AI系统上进行工作以检测诸如儿童色情和暴力之类的违禁内容而感到自豪，但是他开始怀疑它们的真实性。

在2018年，广州组织了一次"一次危险的冒险"活动，来自Facebook各地的人们花了三天时间进行竞争，以找到使这些系统崩溃的最引人注目的方法。一些团队发现了Canton认为让他相信公司需要使其AI系统更强大的弱点。

竞赛中的一个团队表明，在帖子中使用不同的语言可能会使Facebook的自动仇恨语音过滤器迷惑。一秒钟的人发现了2019年初用于在Instagram上传播色情内容的攻击，但当时还没有立即解决这一问题。"我们预测了未来，"坎顿说。"这启发了我，这应该是我的日常工作。"

在过去的一年中，广州的团队研究了Facebook的审核系统。它还开始与公司内部的另一个研究团队合作，该团队已经构建了一个名为WW的Facebook模拟版本，可以用作虚拟操场来安全地研究不良行为。一个项目正在研究提供社交网络上被禁止的商品（例如休闲毒品）的职位流转。

红色团队的最重项目旨在更好地了解深度仿造，即使用AI生成的图像，看起来像是用相机捕获的。结果表明，防止AI欺骗并非易事。

Deepfake技术变得越来越容易获得，并已用于有针对性的骚扰。去年广州小组成立时，研究人员已开始发表有关如何自动过滤掉深造品的想法。但是他发现一些结果令人怀疑。他说："没有办法衡量进度。" "有人报告了99％的准确性，而我们就像'那不是真的。'"

Facebook的AI红色团队发起了一个名为Deepfakes Detection Challenge的项目，以刺激检测AI生成的视频方面的进步。它支付了4,000名演员，出演了具有不同性别，肤色和年龄的视频。在Facebook工程师通过交换人们的面孔将其中的一些片段变成伪造的东西之后，开发人员受到了挑战，要求他们开发可以发现模拟对象的软件。

上个月发布的结果表明，最佳算法只能在65％的时间内发现不属于Facebook集合的Deepfake。这表明Facebook不太可能很快就能可靠地检测到深度欺诈。坎顿说："这是一个非常棘手的问题，尚未解决。"

坎顿的团队现在正在研究Facebook错误信息检测器和政治广告分类器的鲁棒性。他说："我们正试图广泛考虑即将举行的选举中的紧迫问题。"

大多数在企业中使用AI的公司都不必担心，因为Facebook确实被指控歪曲了总统选举。但是微软公司负责人工智能安全的Ram Shankar Siva Kumar说，他们仍然应该担心人们会干扰他们的人工智能模型。他对三月份发表的一篇论文做出了贡献，该论文发现被查询的25家公司中有22家根本没有保护其AI系统。他说："大多数安全分析师仍将注意力集中在机器学习上。" "网络钓鱼和恶意软件仍然是他们的主要目标。"

去年秋天，微软发布了与哈佛合作开发的AI安全文档，该文档在内部用于指导其安全团队。它讨论了诸如"模型窃取"之类的威胁，其中攻击者向AI服务发送重复的查询，并使用响应来构建行为类似的副本。该"被盗"副本可以直接使用，也可以用于发现漏洞，使攻击者能够操纵原始的付费服务。

卡利亚里大学教授巴蒂斯塔·比吉奥（Battista Biggio）十多年来一直在发表有关如何欺骗机器学习系统的研究，他说科技行业需要开始自动化AI安全检查。

公司使用预先编程的测试电池，在部署之前检查常规软件中的错误。Biggio表示，提高使用中的AI系统的安全性将需要类似的工具，这有可能基于他和其他人在学术研究中展示的攻击。

这可能有助于解决Kumar所强调的已部署的机器学习算法数量与了解潜在漏洞的人员之间的差距。然而，比吉奥说，由于对手将不断发明新的技巧，因此仍然需要生物情报。他说："处于循环中的人员仍将是重要组成部分。"