星期六 , 4月 19 2025

iNews新知科技关注科技，自有新知

推荐内容

首页 / 人工智能 / AI / 让霉霉说地道中文的AI，又惊艳升级了

让霉霉说地道中文的AI，又惊艳升级了

声波 2024年4月2日 AI, 人工智能留言 535 查看

你应该在短视频平台刷到过各种 AI 配音：猴哥、紫薇、四郎……

初听有趣，但听多了容易腻，因为真人不这么讲话，原型也不是每时每刻都处在半死不活或者被掐着脖子的状态。

尤其当它们都在说“家人们谁懂啊”，会让不慎刷到的人暴躁到崩溃，上演猴哥甩头表情包：烦死了·GIF。

其实，AI 配音未必都这么有特点，而是越来越像你我一样普通，难以和真人分辨开来，这或许才是更可怕、也更有意思的。

一、不独立行走的 AI，把人类吓坏了

前段时间，X 上有个超火的“带货视频”，一个女子坐在汽车前排，直视着镜头，手舞足蹈、眉飞色舞地推销湿巾。

大多数网友的关注点，不在于她带了什么货，而是判断她是不是真人。

他们看她的手和口型，数她瞪白眼的时间，甚至观察她的发丝、面部肌肉、脸颊光影，势要找出证据把 AI 锤死。

为技术焦虑的悲观主义者说，AI 都这么真实了，人类要完蛋了。对技术半信半疑但维权意识强烈的网友说，这是真人的素材被盗了。

然而，两种说法都不对，事情走向了最平淡的结局：视频主角真实存在，她叫 Ariel Marie，今年 24 岁，自愿给 AI 打工。

去年 12 月，Marie 通过零工平台 Fiverr 接单，向法国 AI 公司 Arcads 提供了自己的声音和肖像，按照对方的要求，录制了 9 个不同场景的视频，包括边走边说的、坐在车里的。

最近爆火的视频，她没能第一个知道。等到出圈之后，朋友的朋友发来视频，问她是不是被 AI 偷脸了，她才了解到网友们都在关心自己是否是人类的一份子。

打开视频的瞬间，连 Marie 自己都愣了一下，冷静下来细看，这个数字人是她又不是她，她不会这么推销产品。

Ariel Marie 本人

所以，视频并非纯 AI，而是基于真人演员的预录制，再使用了 DeepFake、AI 配音、口型匹配等技术。

AI 是否独立行走，或许不重要，哪怕没有从头到尾使用 AI，只要最终效果逼真，也是成功的“造假”。网友们第一反应里的疑惑和惶恐，已经说明了问题所在。

AI 甚至不需要比真人做得更好，水平相当就能过关，比如作为绿幕素材插入视频，反而让人觉得是刻意为之，粗制滥造的效果别有风味。

毕竟，我们刷短视频时，可能正处在最分心的状态，坐在沙发，躺在床上，或者在厕所蹲坑，注意力不足以识别是不是 AI。

Marie 为 AI 拍摄的 5 个视频，报价和接单平台的普通视频差不多，15 秒广告的起价约为 70 美元，60 秒广告的起价约为 130 美元。

同时，Arcads 的套餐收费不低，每月 100 欧元 10 个视频，但创作者们还是能节省时间、金钱和精力。

他们输入文字内容、挑选符合风格的演员，几分钟就能生成视频素材，比招聘真人要便宜，还不需要反复沟通和寄出产品。

图片来自：YouTube@Alex Cooper

自从 Marie 走红，更多 AI 公司向她抛去了橄榄枝。人类成为 AI 产品的素材，或许也是一条短暂可行的生财之道。

二、AI 的言行举止，更像普通人了

同在 AI 视频领域，之前让霉霉说中文爆火的 HeyGen，最近也整了新活。

他们的 AI 角色 Nik，在阳光正好的公园里步履款款，边走边说左手插兜右手自然摆动，甚至还会走累了坐下，丝滑切换英语、德语和西班牙语。

效果已经有些难辨真假，不是只能在镜头前面正襟危坐、除了对口型八风不动的状态了。

这说明 AI 角色在两个方面取得了进步，一是可以识别和跟踪用户的身体动作，包括手部，二是在保持口型同步的同时，切换语言还能克隆用户的语音语调。

其实，HeyGen 的 AI 角色也是取材于真人演员，默认的 AI 角色有上百个，拥有不同种族、年龄、手势。

同时，HeyGen 也支持我们定制自己的 AI 角色，但是对拍摄设备和场地的要求稍高。

所以在不久的未来，我们应该可以创建自己的数字替身，让它精准地复制自己的动作和说话方式，同时又无痛掌握多国语言。

虽然最新的功能还没有开放使用，但 HeyGen 放出了 Demo，欢迎网友们输入文本随意尝试口型同步功能，我便让 Nik 读《岳阳楼记》，4 分钟左右就生成完毕，效果有些幽默。

AI读岳阳楼记

Nik 在普通话里混了外国口音，谪守的谪、浩浩汤汤的汤没读对，口型似乎对上了又没有完全对上，更没有投入什么感情，看着他皱起的眉头，仿佛他自己也越念越疑惑。

值得一提的是，HeyGen 背后有 OpenAI 的支持，他们的视频翻译，使用了 OpenAI 前不久官宣的语音模型“Voice Engine”，既可以把声音翻译成多种语言，还保留母语的口音。

官宣，但不是对外发布，OpenAI 的理由是担心滥用，毕竟门槛太低了——使用文本输入和一个 15 秒音频样本，他们的模型就能生成与原始说话者非常相似的自然语音。

但 OpenAI 的普通话说得还不够好，咬字奇怪，声调读不准，当然，考虑到是外国友人，带点口音才显得纯正。

OpenAI普通话

微软，OpenAI 的金主，也在拟人语音方面颇有建树，最近推出了 9 种更真实的 AI 语音，主要服务于对话场景，这和 ChatGPT 等更加通用的产品不同，更加强调人情味。

其中还有两段中文，领先了 OpenAI，甚至不逊色普通话一级甲等的国人。

字正腔圆，没有一点杂音，像播音主持专业毕业生坐在录音棚聊天，咬字、语气、笑声、停顿都非常像真人，听起来确实非常自然，在抖音和视频号前途无量。

微软AI语音对话

微软AI语音播客

以后我们看的五分钟电影解说里的“注意看这个男人叫小帅”，或许不再那么有机器味了。而在一些露脸的视频里，博主们也完全可以用自己的数字替身代劳。

那些相貌出众但不真实的 AI 颜值博主会过时，难以分辨的 AI 普通人博主才是职业生涯长青的赛博打工人。

与其焦虑被偷家，不如自己拥抱数字替身

面对越来越“普通人”的 AI，深感焦虑的，除了怕被诈骗的大众，还有从业者们，这直接关乎到他们的饭碗。

克隆声音，从文本生成音频，用你的声音说出你不会说的话，正在变得越来越容易。OpenAI 语音模型所需的样本，只有短短的 15 秒，短视频都比这长。

行业头部或许还站如松坐如钟，但刚入行、不出名、充当背景板的配音演员们悬起了心。

配音演员 Jared Butler 就是其中一位，他擅长模仿名人的声音，曾是德普的“嘴替”，在《加勒比海盗 3：世界的尽头》等大片为杰克船长配过音。

然而，比他更会模仿声音的 AI 来了。Jared Butler 深感打击：“你可能觉得，它们听起来是糟糕的客服机器人，但我必须说，这项技术的准确性让人恐惧。”

但也因为没有什么可以失去，对于一些配音演员来说，AI 反而是个就业机会。AI 公司们和这些配音演员，属于双向奔赴。

当对数据质量的要求越来越高，同时公开来源的数据搜集是否道德、是否经过本人同意存在舆论争议，AI 公司和专业人士达成你情我愿的合作，成了最稳妥的方式。

Replica Studio 是较为出名的一家 AI 语音技术公司，已经搭建起了一个游戏角色语音库。

与之合作的一位配音演员透露，对于每个角色，他都会录制不同情绪的台词，快乐的、悲伤的、压力山大的。每种情绪大约有 7000 个单词，最终的音频数据集长达几个小时。

虽然在短视频之外，AI 配音还不那么普及，但嗅到危机的一些配音演员决定主动出击，变相转行，翻身做老板，手把手教 AI 代替自己。

为《博德之门 3》等游戏大作配过音的配音演员 Cissy Jones，发现自己被偷了声音对方还不道歉之后，怒而开了一家 AI 语音初创公司 Morpheme。

她保证和那些小偷的道德标准不一样，在争得演员同意之后，才创建他们的数字替身，让他们从中盈利，演员们也可以选择结束合作。

与此同时，Cissy Jones 自己也想省力，让 AI 帮自己做最累的配音部分，尖叫声、沉重的呼吸声，诸如此类。

说回文章开头提到的 AI 带货视频，起初，Ariel Marie 对 AI 只有一个模糊的概念。在贡献自己的声音和肖像之后，她问 Arcads 这些素材会用来做什么。

对方回答，你的肖像会被放在网站上，让别人输入他们想说的话，然后你说给他们听。这个简单的答案，反而打动了 Ariel Marie，她觉得有点可怕，但更多是觉得，这太酷了。

AI 不会倒退，诈骗等负面影响可能也很难禁绝，但同时 AI 只会变得更好、更快、更便宜、更接近人类。

站在原地讨论人的创造力和人性如何保留，或许是苍白而无力的。我们在一次次案例里被迫承认，AI 在某些方面已超过普通人，比如我们无法在思考几秒之后，就字正腔圆、情绪饱满地说出几十秒的话。

但在人与人之间，起跑线或许差别不大，焦虑的情绪彼此共鸣，如何让 AI 为自己所用，如何避免 AI 剥夺自己，不排斥看到新的世界的机会，也是人类创作力的体现。

关于声波

发现不同的声音

检查

GPT-5将免费向用户开放，DeepSeek逼的

“DeepSeek给了Open …

发表评论取消回复