AI视频能造梦，却还是说不好普通话

B站影视内地电影 2025-10-13 21:23 4

摘要：不同于之前“回答我”系列那种抽象展示，今天的AI视频更聪明，它学会了“街访”。

但凡你最近刷过任何一个视频平台，都很难绕过各种AI生成视频。

不同于之前“回答我”系列那种抽象展示，今天的AI视频更聪明，它学会了“街访”。

AI生成的主持人追着历史人物、卡通形象甚至动物聊天，表情自然，动作也很流畅。

网友惊叹：“AI生成的画面已经真的可怕。”

这几周，Sora2生成的AI短视频在社交平台上疯狂刷屏。

但看多了你就会发现一个共同点，他们讲中文的语气很奇怪。

视频中AI生成的主持人，都带着一种莫名的“跨国会议腔”。

视频中的人有一种“AI专属口音”。

“奶奶”被读成了“lailai”，一句“你好吗”变成了“ni ha ma”。

如同前几年AI不会数手指的笑谈。

如今的AI视频，同样在输出一种地域模糊的四不像方言。

为什么AI已经能造梦，却还是讲不好普通话？

其实，AI有口音并不算新鲜事。

早在2024年，《财富》杂志就在自己官网上推出了AI配音功能，结果网页朗读的中文语音就是“河南普通话”。

图/外研社微信公众号

当时，AI口音就曾引发过一波网友讨论。

后来，随着AI语音的普及，类似情况在语音导航、AI客服、数字人主播中也屡见不鲜：

某导航APP更新AI语音包后，被用户吐槽“有一种迷惑的口音，像是结合了广西各地方言。”

某短视频AI配音语音库，语句尾音拖得像自创的粤语。

有人用AI生成播客，网友听完评价：“像东北阿姨在学播音腔。”

声音的真假越来越模糊，以至于有观众怀疑：电视剧、短剧里演员的声音，是不是也被AI“复刻”了？

想理解这种“AI口音”，得先承认一个事实：

很多社交媒体上流行的AI工具，本身并不是在中文世界里长大的。

Sora和它的“竞品们”大多在英语环境中训练。

而他们的“中文能力”，其实是事后补课的产物。

这些模型训练语料，大部分来自商业语料库，而这些库中“标准普通话”资源极度集中在少数地区或特定说话人。

例如，有研究发现部分中文TTS（文本转语音）训练集确实使用了来自中原地区的发音数据，使机器“普通话”带出微妙的方言味。

AI并不知道什么是“标准”，它只知道：谁的数据多，就学谁的口音。

从算法角度看，它不过是在模仿出现频率最高的发音模式。

于是就有了“AI口音”，即算法学习后“平均中国人”的发音方式。

你听起来不对，却又说不清哪里不对。

更奇妙的是，当AI尝试“多方言融合”时，就出现了“方言缝合怪”.

有人在B站测试AI说上海话，结果成了“粤语声调+苏州语气+普通话词序”。

而一些AI说四川话时，却输出了“日语+西南官话”的怪异混搭。

中文的难，不在声母韵母，而在一种“语感”。

AI能识别拼音，却听不懂“言外之意”。

能掌握语法，却很难进一步理解“气口”和“留白”。

中文的博大精深，恰恰就在于含糊。

简单一句“行啊”，可能意味着“好啊”“可以”“不行”“你自己看着办”——四种情绪，全靠语气区分。

于是，我们听到的AI配音就像“语言的壳”：节奏怪异、语调僵硬、情绪缺席。

它在说话，但没在“沟通”。

另一方面，中文本身就很复杂。

地大物博的另一面就是语言的多样性。

从“沿海的软”到“高原的硬”，到“北方人的直爽”“南方人的轻声”。

方言的多样，让中文自带巨大的“口音宇宙”。

机器可以学习标准，却学不来“弹性”。

而正是这种弹性，让语言有了地方特色。

过去一年，我们见证了AI生成的“假人”越来越逼真，他们会眨眼、能微笑、爱唱歌、不知疲倦地带货。

可一开口，说出那句带着AI口音和蹩脚停顿的“大家好”。

你我就会立刻出戏,意识到：它不是“人”。

人类说话，从来不是“技术动作”，而是直接的情绪反应。

每个人用自己的语气说一句“你吃了吗”，表达都可能完全不同。

AI的语音模型能在技术上实现“完美拟真”，但在心理上永远缺乏一种灵动：

它不知道什么时候该留白、什么时候要“嗯”一声表示共情。

某种程度上，语言也许是AI拟人化的最后一道门槛。

AI擅长造梦，却还没学会语言背后的惊讶和追问。

也许人类语言的“迟钝”“犹豫”“转折”，也是一种很难被复制的智能。

撰文：杨一凡

校对：柳宝庆

本文由硬壳INK出品，欢迎大家在朋友圈分享

每周一、三、五更新

未经许可，禁止转载复制使用

来源：每日旅游新闻一点号

标签：视频中文方言 sora 杨一凡

本文地址：http://news.43b.com.cn/a/1534803.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!