摘要:刷短视频时,那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。
3秒克隆你的声音,AI正在拆碎你的一切
刷短视频时,那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。
别惊讶,后台已经把她的脸、声音、口头禅切成上千块小碎片,随时拼成新的你。
这项技术叫多模态Tokenization。
文字被切成词,图片被切成16×16小格,音频按50次每秒取样,视频直接拆成一页页PPT。
谷歌Gemini最新测试里,一段两分钟的短片被拆成2880张静帧,系统能逐帧检索出背景里的商标。
更细的是声音。
Meta六月公开的Voicebox只要三秒原声,就能让任何人说任何话,连你感冒的鼻音都能保留。
国内团队用抖音竖屏数据训练后,识别手机自拍构图的速度比传统方案快四成,流量池里点赞最高的角度被算法牢牢记住。
碎片化的代价正在浮现。
工程师李航告诉我,他用大模型给母亲做生日视频,系统把老人脸上的老年斑全部抹平,照片像塑料娃娃。
观众爱看光滑皮肤,算法就把皱纹当噪点清除。
当世界被切成Token,整体感被悄悄删除。
美术馆用AI修复古画,算法把画家故意留下的飞白笔触补上;音乐平台用AI重制老歌,底噪里的咳嗽声被判定为杂音。
精准让作品失去人气,也失去记忆。
好处同样真实。
视障用户打开相机,AI把街景实时转成文字,公交号码、红绿灯秒数一一念出;聋哑学生用AI听课,老师的声音同步变成字幕,语速再快也能跟上。
碎片技术让信息流动到更需要的人手里。
主动权仍在人类。
平台可以决定保留哪些碎片:让皱纹留在全家福,让底噪留在老歌,让笔触留在古画。
算法只负责切,选什么留下,是按下训练按钮那一刻的人心。
再不做选择,下一个被拆碎的就是你的记忆。
来源:魔法远山Lz
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!