从文字到视频，由AI生成的内容是怎么被识别出来的？

2025-05-12 12:01:25 阅览：418

【导语】随着AI技术的飞速发展，由AI生成的文章、图片和视频作品日益增多。在享受AI带来的便捷时，人们也常遇到内容疑似AI生成的提示。那么，平台究竟如何识别这些AI作品？AI生成的内容与人类创作又有何本质区别？本文将深入探讨AI生文、生图、生视频的识别方法及其背后的技术原理，同时关注AI内容对人类语言和思维方式的潜在影响。

随着AI技术的不断发展，其生成的文章、图片和视频作品(pǐn)越(yuè)来(lái)越(yuè)多(duō)，比(bǐ)如(rú)我(wǒ)们(men)在(zài)刷(shuā)短(duǎn)视(shì)频(pín)时(shí)，常(cháng)常(cháng)会(huì)看(kàn)到(dào)这(zhè)样(yàng)的(de)提(tí)示(shì)：内(nèi)容(róng)疑(yí)似(shì)AI生(shēng)成(chéng)。每(měi)次(cì)看(kàn)到(dào)这(zhè)，有(yǒu)人(rén)难(nán)免(miǎn)产(chǎn)生(shēng)疑(yí)问(wèn)，平(píng)台(tái)是(shì)怎(zěn)么(me)识(shi)别(bié)出(chū)来(lái)的(de)？肉(ròu)眼(yǎn)看(kàn)到(dào)的(de)明(míng)明(míng)是(shì)真(zhēn)人(rén)啊(a)，为啥(shà)怀疑是AI作品呢？

AI生文

一般情况下，单纯由AI生成的文章可能较难被直接识别出来。然而，AI生成的文字往往(wǎng)在(zài)语言表达和逻辑结构上展现出一种模式化的特征，一旦大量复制此类内容，或是作品的语言风格、结构等与AI生成的典型模式高度吻合，就有可能被识别出来。

西湖大学工学院副院长、国际自然语言处理领域知名专家张岳表示，机器的思考偏向“统计性”，而人类的思考里除了“统计性”，还有“因果性”。人类能从经验中提炼因果逻辑，而AI缺乏这种认知深度。具体体现在当遇到困难，人类会反思，但这种能力大模型尚不具备。

以写文章为例，AI的写法是学习现有的数据，从中挑选最“安全”的词，也就是按照概率高低来选词，这和人类写作的创造性有本质区别。例如在“我吃了一顿……”这个句式中，机器往往会在“吃”这一动词后使用搭配概率较高的“饭”，但人类可能会说：“我吃了一顿美味。”

再比如，只学过三位算数的AI并不能保证四位算数的准确率。或者，生成文本时，若遇到训练数据外的场景，AI可能编造出看似合理实则虚构的“幻觉内容”，杜撰出一篇不存在的论文。这样的“致命伤”导致AI在虚拟世界的“聪明”和在物理世界的“笨拙”形成了鲜明对比。

还有一些反作弊手段，比如某些学校或考试机构，通过查重系统等来检测作文是否存在抄袭或大量使用AI生成的情况，如果作文与已有大量文本相似度较高，就可能被判定为违规。某些作文中出现大量过于流畅、缺乏个性的语句，或者逻辑过于规整而缺乏真实思考的痕迹等，都可能引起怀疑。

AI生图

早期，AI生图的技术并不完美，经常会留下操纵迹象。信也科技算法科学家吕强表示，通过肉眼分辨图片是否为合成，可以重点观察图片中的细节，例如观察图片中的手指数量是否正常、眼神是否怪异、发丝看起来是否真实等，如果一个眼睛看前、一个眼睛看左就有问题。另外，生成的照片通常在光影上存在瑕疵，并缺乏照片基本参数，例如曝光等。但随着AI的进步，这种观察变得困难。

不过，研发这些AI图片检测软件的工作人员尤其注意到，如果要辨别一张人像的真伪，通过分析图像中人物的眼睛细节会是一种非常有效的方法。

人类的眼睛构造非常复杂，在光的折射下，人眼的反射角度、瞳孔的变化都会有很多细节的不同。现在的技术已经发展到可以从一段真实视频中的人物眼睛反射的“镜中像”，来分析人物所处环境甚至看到人物对面站着的人脸等细节。但目前“AI生成”的图片中，人像的眼睛是不可能保存这样的细节的，简单地说，看一张“AI生成”人像的眼球瞳孔的形状就可以一眼辨别真伪，因为真实的照片中人眼瞳孔形状通常是规则的圆形或者椭圆形，而AI照片中瞳孔形状大多是不规则的。

吕强指出，一种更高效的方法是采用AI对抗AI。通过AI识别，首先需要构建一个包括真图和假图的训练数据集，再利用大模型学习两类图片的不同特征，例如用AI学习图片曝光细节，“一张很灰暗的图片出现了一张整体偏白的人脸，这张图片可能就是经过人脸替换的。但有些人对光线不敏感，人眼可能就识别不出来。”当大模型拥有了各类细节的识别能力后，“把这些能力汇总起来，就构成了一个(gè)真(zhēn)假(jiǎ)图(tú)片(piàn)的(de)辨(biàn)别(bié)矩(ju)阵(zhèn)，然(rán)后(hòu)对(duì)矩(ju)阵(zhèn)结(jié)果(guǒ)打(dǎ)分(fēn)，最(zuì)终(zhōng)给(gěi)出(chū)来(lái)一(yī)个(gè)真(zhēn)假(jiǎ)图(tú)片(piàn)的(de)评(píng)判(pàn)结(jié)果(guǒ)。”不(bù)过(guò)，他(tā)也(yě)表(biǎo)示(shì)，利(lì)用(yòng)AI识(shi)别(bié)生(shēng)成(chéng)图(tú)片(piàn)，算(suàn)法(fǎ)复(fù)杂(zá)度(dù)并(bìng)非(fēi)难(nán)点(diǎn)，挑(tiāo)战(zhàn)在(zài)数(shù)据：一是可能没有那么多假样(yàng)本(běn)，二(èr)是(shì)要(yào)想(xiǎng)让(ràng)假(jiǎ)样(yàng)本(běn)覆(fù)盖(gài)到(dào)很(hěn)多(duō)领(lǐng)域也(yě)有(yǒu)挑(tiāo)战(zhàn)。

AI生(shēng)视(shì)频(pín)

目(mù)前(qián)，大(dà)多(duō)数(shù)视(shì)频(pín)都(dōu)可(kě)以(yǐ)用(yòng)AI生(shēng)成，只不过这里很让人头疼的当属“换脸”视频，令人防不胜防，特别是对那些不太了解AI的人，一骗一个准儿，事后还要摇着脑袋说，这肯定不是AI。

事实上，AI 伪造视频所用的技术并不是最近才出现的，上世纪九十年代学术界就开始了面部替换和图像生成相关技术的研究。2014 年，伊恩·古德费洛（Ian Goodfellow）提出了生成对抗网络（GAN，Generative Adversarial Network），使得(de)计(jì)算(suàn)机可以生成更为逼真且高质量的图像。随着相(xiāng)关技(jì)术(shù)不(bù)断(duàn)进(jìn)步(bù)，AI不(bù)仅(jǐn)生(shēng)成(chéng)的(de)视(shì)频(pín)分(fēn)辨(biàn)率(lǜ)更(gèng)高(gāo)、面(miàn)部(bù)表(biǎo)情(qíng)同(tóng)步(bù)更(gèng)自(zì)然(rán)，而(ér)且(qiě)所(suǒ)需(xū)的(de)数(shù)据(jù)更(gèng)少(shǎo)、训(xun)练(liàn)时(shí)间(jiān)更(gèng)短(duǎn)。

那么如何识别和检测一段视频的真伪呢？最简单的方法还是我们的“经验判断”——即用肉眼仔细分辨，还是能看出视频中人物的一些异常，比如面部表情的扭曲或眼神的不自然、眨眼次数过少、人物面部边缘模糊或者与背景的过渡明显不自然，甚至是人脸的光影效果与周围环境的光线情况不符等。

另外，在视频通话时，如果你无法分辨眼前与你视频通话的人是真是假，可以要求对方用手指按一按自己脸颊或鼻翼，因为目前已知的人脸仿冒技术，还不能仿冒人脸在受到外部压力时产生的变形，如果变形明显不正常，就可以判定对方是“换脸人”。或者可以在自己的手机上安装相关的“打假”软件，来检测视频的对方皮肤的颜色是否会随正常的人类心跳频率保持一致地有规律变化。

也许在不久的将来，这些招数都不好用了，因为这些异常可能会随着技术本身的不断提升变得越来越“正常”，我们已经不能完全相信自己的肉眼判断了。

在国内，有些企业将特定信息嵌入到多模态的数字载体中，支持图像、视频、音频、文本等多模态数字载体，可以隐蔽嵌入水印信息，不影响原始内容质量和用户感知，同时抵御攻击，以免被删除或修改。这类技术应用到软件中，那么识别AI视频就会变得更加容易。

尽管当前的技术大幅提高了对AI生成文本识别的准确性，但张岳坦言，不久的将来，AI可能会发展出“反侦察”技术，从而提高内容识别(bié)难(nán)度(dù)，人(rén)与(yǔ)机(jī)器(qì)之(zhī)间(jiān)这(zhè)种(zhǒng)“矛(máo)”与(yǔ)“盾(dùn)”的(de)攻(gōng)防(fáng)角(jiǎo)色(sè)会不断互换、演进。

令人担忧的是，当人类吸收的语料中越来越多混杂入AI生成内容，人类的语言会不会越来越接近AI？张岳表示，随着互联网上AI生成内容的不断增加，一批与AI相伴而生的年轻人可能会逐步学习AI的表达风格。但人类的表达始终具有“因果性”，目前与AI还存在本质区别。而未来，AI可能学会像人一样思考，届时识别难度可能更高。

编辑：晴晨本文综合整理自文汇报、潮新闻、羊城晚报、澎湃新闻等本文封面图及文内图片均由即梦AI生成。