摘要:前几天帮邻居李阿姨处理手机问题,她说前阵子接到儿子的电话,说在外地出了急事要借钱,声音跟真的一模一样,差点就转钱了!后来才知道,那根本不是她儿子,而是AI生成的克隆语音。
文 | 金锐点
编辑 | 金锐点
前几天帮邻居李阿姨处理手机问题,她说前阵子接到儿子的电话,说在外地出了急事要借钱,声音跟真的一模一样,差点就转钱了!后来才知道,那根本不是她儿子,而是AI生成的克隆语音。
你可能没意识到,现在AI合成的声音已经逼真到连我们自己都分不清,甚至有测试显示,它比真人声音还让人觉得可信。
这到底是技术进步的便利,还是藏在耳边的“陷阱”?最近伦敦大学玛丽皇后学院的研究团队在《PLOSOne》期刊上发表的成果,彻底打破了大家对AI语音“机械化”“不自然”的印象。
他们做了个很直观的测试,把真实人类的声音,和两种AI生成的声音放在一起让参与者分辨。
一种是“特定人克隆语音”,比如拿到某人几分钟的录音,就能精准模仿他的声线、语气,另一种是“通用合成语音”,不针对某个人,纯粹靠大型语音模型生成。
结果让人大吃一惊,大多数人根本分不清哪是真人声,哪是AI声,甚至有不少人把AI声当成了真人在说话。
更让人在意的是,这种能“以假乱真”的技术,现在普通人也能轻松用上。
研究负责人纳丁·拉文博士说,市面上就能买到现成的商业软件,不用懂复杂的技术,只要有一段目标人物的录音,几分钟就能做出高质量的语音克隆,成本还特别低。
以前觉得“语音克隆”是高科技领域的东西,现在却成了谁都能碰的工具,这背后藏着的影响,可不止“新鲜”这么简单。
往好的方面想,这技术确实能帮到不少人,比如有语音障碍的朋友,以前可能只能靠文字交流。
现在能用AI克隆自己健康时的声音,或者定制适合自己的语音,跟家人朋友聊天时更有温度。
老师备课也能用上,给不同学科的课文配上定制语音,比如用温柔的声线读语文,用沉稳的声线讲历史,学生听课也会更投入。
就连我们平时接的客服电话,以后可能也不是真人,但AI生成的语音能根据问题调整语气,不会像以前那样机械地念话术,体验会好很多。
可反过来想,风险也跟着来了,现在很多APP、银行卡都有“语音认证”功能,比如转账时念一段数字确认身份,可要是AI能克隆你的声音,这道安全防线不就形同虚设了?
还有电话诈骗,以前骗子还得装腔作势模仿语气,现在直接用AI生成目标人物的声音,给家里老人打电话骗钱,老人根本分辨不出来。
更严重的是,要是有人用AI克隆名人、政治人物的声音,传播虚假信息,比如伪造“某专家建议囤货”“某官员发表不当言论”的音频,很容易引起混乱。
可能有人会说,之前不是有“深度伪造视频”吗?跟那个比,语音克隆应该没那么可怕吧?
其实不然,深度伪造视频有时候会有“超现实主义”的破绽,比如表情不自然、动作卡顿,但AI生成的语音没有这个问题。
测试里还发现,AI声不仅没破绽,甚至在某些方面比真人声更有优势,不少参与者觉得AI声听起来更有主导性,更让人信任。
换句话说,AI不只是“模仿”人类声音,还在悄悄“优化”它,让听的人更容易放下戒心,这反而比视频更难防范。
现在全球的科技公司都在抢这个赛道,你能叫得上名字的巨头几乎都没缺席。
比如OpenAI的语音合成模型,能根据文本生成不同风格的语音。
谷歌的WaveNet技术,让AI声的细节更像真人,微软的神经语音服务、亚马逊的Polly系统,也在不断升级,想把技术做得更成熟。
除了这些大公司,专门做语音克隆的创业公司也越来越多,就像雨后春笋一样冒出来。
这让技术商业化的速度越来越快,可能用不了多久,我们日常接触到的语音,会有更多是AI生成的。
面对这样的情况,大家最关心的肯定是“怎么防”,目前监管层面已经在行动了,欧盟的《人工智能法案》里专门提到了要规制深度伪造内容,美国也有好几个州在考虑针对“未经授权的语音克隆”制定法律。
但问题是,技术更新的速度太快了,法律往往赶不上,比如现在技术已经能轻松克隆语音了,相关的法律可能还在讨论阶段,这段“监管真空期”里,风险就只能靠我们自己多留意。
行业里也在想办法,有些公司开始尝试在AI生成的语音里嵌入“不可感知的水印”。
就是我们听不出来,但用特定工具能检测到的信号,这样以后遇到可疑音频,就能通过水印判断是不是AI生成的。
不过这需要全行业一起配合,要是有的公司不这么做,效果也会打折扣,对我们普通人来说,最实在的还是提高警惕。
以后接到陌生电话,尤其是涉及借钱、转账、索要验证码的,别光听声音,多问几个“只有自己人知道的问题”。
比如“上次咱们一起吃饭的馆子叫什么”“我生日你送的礼物是什么”,AI再厉害,也没法知道这些私人细节。
平时也别随便在网上发自己的长语音,避免被人拿去做语音克隆的素材。
企业也得加把劲,比如那些靠语音认证的平台,得赶紧升级安全机制,不能只认声音,最好再加上人脸识别、短信验证等多重防护。
但是不能简单地把AI语音克隆技术分好或坏,关键看我们怎么用,它能帮有需要的人重新拥有“声音”,也能让生活更便利,但要是被别有用心的人利用,就会变成伤人的工具。
现在我们已经慢慢进入一个声音也可能不真实的时代,传统的听声辨人不管用了,这不仅是技术层面的挑战,更是对我们信任体系的考验。
如何享受技术带来的好处,同时守住安全的底线,需要监管部门、企业和我们每个人一起努力,没人希望有一天,连家人的声音都要先“验明正身”才能相信。
来源:沧海旅行家一点号