我收到一张自己的裸照，却想不起来在哪拍的_投资观察网

我收到一张自己的裸照，却想不起来在哪拍的

发布日期： 2023-08-11 16:16:42 来源：果壳

你被宋小宝换脸王嘉尔的视频逗得咯咯笑，合上电脑，打开抖音。

(相关资料图)

“今晨⽢肃⼀⽕⻋撞上修路⼯⼈致 9⼈死亡”，一则黑底黄字的新闻蹦出来，语气严肃，时间、地点、官方通报的话语都一丝不苟。人生多艰啊，你感叹了一声。

这时，微信第二栏的小人图标浮出一个红点。好友申请来自你正在巴结的一位领导，公司有个大项目正等着他发话。他怎么会加我？你将信将疑地通过，对方立刻一个视频通话打了过来，那张电视里见过好多次的脸正对着你，告诉你工程可以批，只是需要走一笔对公账户的保证金。领导的语气沉稳，不怒自威，摄像头那边的你点头哈腰，不敢怠慢分毫。

挂掉电话，邮箱收到老板的邮件，跟你说：项目批了，快给领导打保证金，立刻！马上！语气、用词、甚至常用的错别字都和平时只能在开大会时瞄一眼的老板一模一样。你更加疑惑，作为一个刚入职没两年的公司小底层，没理由这两位亲自来找你啊。

你一边疑惑，一边不敢怠慢地打开银行 App，犹豫着要不要打个电话给上级确定下这个事时，许久没收到过一条活人信息的短信信箱传来通知。一个陌生号码，你打开，眼睛瞬间瞪大。

你的裸照。是的，一张看起来像酒店摄像头偷拍，像素极低，但刚好能看清楚你脸部的，裸照。配文是：联系 186xxxxxxxx 删除照片。

关键是，你实在想不起什么时候去的酒店啊。

AI骗你，真的难防

快快冷静下来，这一切都过于巧合。

你开始上网搜索，想看其他人是否有类似遭遇。一份来自英国《犯罪科学》杂志的文章出现在搜索页第一栏，这个由计算机科学和警务领域顶尖专家出具的报告称：音频/视频模仿、定制化网络钓鱼、人工智能编写的假新闻是 AI 可能引发的犯罪中，威胁程度最高的三个类别。

与传统的诈骗手段相比，由 AI 助力的诈骗更有针对性，并且难以分辨。它不像以往的电信诈骗那样，只能模糊扮演“某派出所工作人员”，而是可以通过生成图像和声音，以你认识的具体某人的形象出现。就像那张酒店里的裸照一样，它无中生有，却也让你找不出破绽。

这来自生成式 AI 本身的特性。目前用于 AI 诈骗的工具大多为 GAN模型，它采取让生成模型和判别模型互相博弈的方法，其中生成模型负责生成图片/文字/视频/音频，而判别模型负责判定这些数据是来源真实世界还是计算机生成。当生成模型顺利骗过判别模型，达到以假乱真的地步时，这个 GAN 模型才算成功——这根本就是个为“造假”而生的技术。

更可怕的是，制作一个虚假的你是如此简单。视频换脸、生成真人音频或图片，生成模仿你特点的文字，这些工具都可直接从网络获得，目前大多免费。四五年前，你还需要提供一堆素材，但现在，合成你的声音，只需提供 10 个字的音频片段；你的样貌，10 张照片即可。

这太容易了，你在抖音上发布的一则视频，其中包含的声音和脸部信息，就足够生成另一个你。更别说你在朋友圈、小红书、微博留下的痕迹——你可能还玩了那个上传 20 张照片的 AI 图片小程序，那些照片量足够再造一个 360 度无死角的你。

你搜到更多“AI 换脸”的诈骗案例，包头有人接到换脸成其朋友的微信视频，10 分钟内被骗 430 万；安徽有人接到“朋友”在开会的视频，9 秒被骗 245 万；你还知道了“⽕⻋撞上修路⼯⼈致 9⼈死亡”是一则由 ChatGPT 编写的假新闻，一家在深圳的公司通过不同的自媒体账号分发这些消息，希望获取流量赚钱。

但你还是将信将疑，你收到的那些照片视频和邮件都太真实，万一是真的呢。

这不是你的错。《犯罪科学》的报告指出，这三类诈骗危险性高的最重要原因，就是因为它挑战着人类最底层的行为逻辑——眼见为实。“唯一有效的防御是改变公民的行为，比如普遍不再信任视觉证据”，报告写道。

魔法打败魔法

难道除了否认自己几十年来的底层认知，就没有别的办法对付 AI 诈骗了么。

当然不会，打败魔法的还得是魔法。为了检测这些 AI 生成的伪造信息，一个思路是同样使用 AI 模型来学习区分真实和伪造信息，让 AI 检测 AI。

AI 生成的信息有其破绽，它依旧模仿不好一些基本的物理和生物特征。以最能让人放松警惕的视频为例，它的特点是时空连续，通过这个特性，分析帧与帧之间的生物连贯性，如眨眼、呼吸的频率是否自然，可以分辨出一些视频是否为生成的线索。

生成的视频眨眼频率、肌肉走向都很不自然｜Giphy

也有人采取更细致的生物特性。比如当血液流经我们的身体时，我们的血管会以非常微妙的方式改变颜色，这种改变可以通过 PPG捕捉到。英特尔发布的 FakeCatcher 便通过训练 AI 识别脸部的 PPG 信号，来判断视频中的人物是真实拍摄还是生成——因为任何生成操作都会打乱视频空间、光谱和时间的相关性，并因此破坏人物的 PPG 信号。

除了看血，也看肌肉。自然运动下的面部结构与伪造出来的不同，用算法将视频的运动放大，再让 AI 捕捉其中不自然的因素。英特尔号称这种方式识别出假视频的准确率可达 97%。

画中为真人主播，左下为生成主播，说同一段台词时，生成的主播依旧不自然｜YouTube by 零度解说

文字和声音的检测也可以从分辨生物特征是否自然的思路出发。比如文字上人类倾向于做出更多难以预测到的词汇选择，在句子长度上的波动更大，也更倾向于用短句，最近很火的检测文本是否由 AI 生成的 GPTZero 便在用这个思路分辨。

声音则可以通过分析语音的频谱、音高变化、语调变化、和一些频谱细节上来判断。佛罗里达大学的研究者便开发了一个模拟人类声道的系统，数值化声音产生通道沿途各种距离的横截面积，当听到一段音频时，AI 通过判断该发声机理在生物学上是否合理，来检测音频是否为生成。

走过皆留痕

生成内容的模型和工具还有特定的“指纹”。

比如由于感光传感器的缺陷，数码相机产出的图像会带有 PRNU噪声，它可以通过一些手段减少，但不能完全消除。因为每个数字相机的 PRNU 都不相同，它便被视为数字图像的“指纹”。而面部信息被篡改的图像，或是生成的图像，PRNU 信息会不连贯甚至不存在，研究者便可以训练 AI 通过辨认该“指纹”来判断图像是否虚假。

GAN 模型也有“指纹”，比如在颜色级别上出现偏差，图片的纹理出现重复，图片噪声的分布更加规律而不是像真实图片那样随机等。这些偏差特征人眼难以分辨，但 AI 可以。

图像指纹和模型指纹的结果，图像指纹在其对应的模型指纹下具有最大的响应｜参考文献¹

更关键的是，GAN 的架构，使用的数据集，随机初始化的种子都会影响 GAN 的指纹，因此可以通过这些特征反向推断出作品是由哪个具体的模型生成的。但这只在模型和训练数据都公开的情况下才可行，如果有人用私有数据训练一个没人知道架构的 GAN，模型溯源便难以做到了。

如果你不想用这些技术手段，这还有一个 AI 土办法。

你可以给麦觉理大学网络安全中心的达利·卡法尔教授写一封邮件，告诉他你深受电话诈骗之苦，他可能会给你提供他们最新的多语种聊天机器人 Apate。这款机器人的作用就是装成受害者和骗子聊天，让骗子把时间花在它身上，就没有时间去真的骗人了。

Apate 的名字就来源于希腊神话中的欺骗女神，它通过学习真实诈骗电话的录音和社交平台的聊天记录来学会做“受害者”，而且在学习使用多种语言和口音，包括学习用特定的人物角色进行回答，只为了能拖住骗子更长一些时间。

还是自己长点心吧

可惜的是，因为检测准确率太低，OpenAI 刚在上个月关闭了他们的 AI 文本检测工具，你少了一个可用的工具。

检测 AI 生成的文本其实很难。文字不像图像或视频，有几百万像素和时间线连贯的帧来显示破绽，生成出来的文本可以很简短，没有足够的信息量给 AI 去分辨，而且不像图片或视频，相邻像素的颜色变化有一定规律，文字是离散的，这更加大了检测难度。

但这也不意味着其他信息类别的检测就容易，今天的 AI 生成作品正越来越精细和自然，留给检测类 AI 识别的破绽越来越少。不仅如此，还有对抗样本来扰乱检测类 AI 的识别，进一步加大检测难度。

对抗样本可让计算机将大熊猫认成长臂猿｜参考文献 2

正因为此，目前流行的解决方法是呼吁生成式模型自觉给生成内容加上标识，OpenAI、 Alphabet 和 Meta Platform 等人工智能公司已表示会给生成的内容标注水印等措施，谷歌和必应也会标注搜索结果中来自 AI 生成的内容，但这还远远不够。

而为普通人的你，面对难以辨别 AI 生成内容，除了学会借助这些 AI 检测工具，还是可以回到最简朴的那套方法——提高警惕，保持怀疑，多核实，掏钱前找其他人多问一嘴。AI 越来越强大，但死守住钱包的心可以帮你逃过一劫。

一些你可以直接用上的小工具，不用谢：

关键词：

热点图集

职场

24小时热点

2023年6月云南彩票销售额及福利、体育彩票销售情况统计分析

郑州退役军人用云闪付怎么查乘车记录2023

秀出你自己！2023聊城新青年音乐节头像墙征集活动开始啦！

钢架结构图片（钢架结构）

场外活动已报备为啥还被"叫停"？市纪委监委启动直查督办

阳澄湖蟹庄推荐，盘点阳澄湖吃大闸蟹正宗的农家乐

相关文章

热点图集