星期日 , 4月 20 2025

iNews新知科技关注科技，自有新知

推荐内容

首页 / 人工智能 / AI / 谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

谷歌的这只AI学会了“打小抄”，还骗过了它的创造者

声波 2019年1月2日 AI, 人工智能留言 2,284 查看

一篇来自谷歌和斯坦福2017年的研究今天在twitter和reddit上被热议。

在这个让人啼笑皆非的研究里，为了完成图像转换的任务，CycleGAN在训练过程中通过人类无法察觉的某种“隐写术”，骗过了它的创造者，给自己留下了隐秘的“小抄”，然后顺利完成了任务。

这个小插曲催生的论文也因此被命名为“CycleGAN, a Master of Steganography”（CycleGAN，一个隐写术大师），被当年的NeurIPs收录。

听到“骗过人类”觉得有点可怕是不是，先别慌，一起来看看这个“小把戏”。

为了加快将卫星图像转换为谷歌精确的街道地图，谷歌团队使用CycleGAN神经网络系统，希望通过大量的训练，从而使得这个模型能够尽可能精确、高效地转换X、Y类型图片获得相应结果。

简单来说，研究者希望通过训练这个CycleGAN模型，可以实现两类图片的转换：把航拍照变成街道地图，再把街道地图变回航拍照。

早期的实验结果中，这个模型做得还不错。

虽然很难深入了解神经网络流程的内部工作原理，但团队可以轻松审核其生成的数据。通过一些实验，他们发现CycleGAN确实大幅提升了转化速度。

直到有一天，研究者发现了奇怪的事情：这个模型自作主张地根据航拍卫星图片重建了街道地图。

比如，在创建街道地图时，屋顶上的天窗被研究者通过某种设置被抹掉了，但通过街道图转化为航拍照后，这些天窗又神奇地出现了。

左侧是原始地图，街道地图从原始地图产生。中间：生成的地图。右侧：重构的地图。

其中，卫星地图的样本只来自街道地图。注意这两张卫星地图里出现的点，它在街道地图没有显示。

心存疑惑的研究者开始着手检查这个CycleGAN学到的mapping到底是什么，接着发现了更多“凭空”出现、根本不可能产生的航拍照。

经过一系列检查，研究者发现原来是CycleGAN在把航拍照变成地图的时候，加入了一些人类肉眼不可见的噪音（或者其实可以说是信息），然后从地图reconstruct航拍照的时候，就通过这些噪音来读取信息。

就好比，为了应付人类任务，AI在地图照上面偷偷写了一点小抄/水印，而为了躲过人类的检查，只有它自己训练出来的模型才读得懂这些小抄/水印。

这和人类研究者想象的任务完成途径完全不一样。

可能有人会觉得，只要工作能完成，那么这个办法也非常聪明。

但值得一提的是，如果一些细节被巧妙插入视觉数据中，人眼不会注意到的数千个微小颜色变化，但计算机却可以轻松检测到。

也就是说，这种方法尽管可以实现目的，但是非常容易被攻击。一旦有“攻击者”在一张地图照里面加一些肉眼不可见的“小抄”，就会“重构”出来一张驴唇不对马嘴的照片。

通过这种方式，可以将航空地图编码成任何街道地图！计算机在编码的过程机中不需要关注“真实”的街道地图，所有重构的航空照片所需的数据都可以“人畜无害”地叠加在完全不同的街道地图上。

研究人员也通过实验证实了这一点：

右边的地图通过编码左边到映射的地图中，在视觉上很显然没有明显的变化。

上图（c）中的彩色地图是计算机系统引入具有细微差别的可视化图片。图片形成了和航空地图差不多的形状。如果你不把他放大，并且仔细的观察，你可能很难发现这些差别。

这种将数据编码成图像的做法并不新鲜，这是一门被称为“隐写术”的技术，值得一提的是，它已经非常成熟、现在被广泛应用。

现在，似乎计算机也学会了这种隐写方法，运用此方法机器可以“偷懒”，从而逃避学习、逃避们手头的任务。

了解一下Cycle GANs所采用的学习方法，出现这一“偷懒”结果似乎也不意外。

Cycle GANs从X到Y的G映射的过程中，生成器不是选取一些隐向量来映射，而是使用图像的直接转换量。使用普通的对抗损失函数来构建一个映射G。利用G，可以从生成的图像X映射到真实图像Y。

类似地，我们也有一个反向的映射, 但这有一定的可能会使我们丢失原始图像的一些特性。

所以约束性在Cycle GAN的使用中非常重要。

一旦约束条件不完备，模型很容易出现钻空子的“偷懒”情况。

今天的热议中，很多人就此得出了“人工智能正越来越聪明”论断，从而心生恐惧。

大可不必慌张，这一结果正说明机器还不够聪明，到目前为止，它还不能完成复杂的图像类型相互转换等工作。但是，它可以利用人类不善于检测的弱点欺骗人类。

对计算结果更严格的评估可以避免这种情况。

计算机所做的事情，全部来自程序命令，所以你的要求也必须明确具体。不过这个案例给了我们关于解决神经网络的弱点的新思路，对于计算机来说，如果没有明确禁止它做什么事，它可以自行找到一个从细节出发，回馈自我到达一个高效解决既定问题的方式。

这也为提高CycleGAN生成图像的质量提供了有一种可能的途径，尽管循环一致性损失能够让神经网络将原图像的信息编码映射到生成的图像中，但是，模型也可以偷偷地通过对抗性学习提高欺骗能力。如果能够找到阻止算机“打小抄”的方式，这会使图图转换工作得到突破。

这一研究论文《CycleGAN, a Master of Steganography》已经被2017年NeurIPs收录，感兴趣的同学可以一看。

论文链接：https://arxiv.org/pdf/1712.02950.pdf

关于声波

发现不同的声音

检查

GPT-5将免费向用户开放，DeepSeek逼的

“DeepSeek给了Open …

发表评论取消回复