大模型如何理解图像、音频等多模态内容(多模态 Tokenization)

B站影视 港台电影 2025-09-30 05:22 1

摘要:刷短视频时,那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。

3秒克隆你的声音,AI正在拆碎你的一切

刷短视频时,那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。

别惊讶,后台已经把她的脸、声音、口头禅切成上千块小碎片,随时拼成新的你。

这项技术叫多模态Tokenization。

文字被切成词,图片被切成16×16小格,音频按50次每秒取样,视频直接拆成一页页PPT。

谷歌Gemini最新测试里,一段两分钟的短片被拆成2880张静帧,系统能逐帧检索出背景里的商标。

更细的是声音。

Meta六月公开的Voicebox只要三秒原声,就能让任何人说任何话,连你感冒的鼻音都能保留。

国内团队用抖音竖屏数据训练后,识别手机自拍构图的速度比传统方案快四成,流量池里点赞最高的角度被算法牢牢记住。

碎片化的代价正在浮现。

工程师李航告诉我,他用大模型给母亲做生日视频,系统把老人脸上的老年斑全部抹平,照片像塑料娃娃。

观众爱看光滑皮肤,算法就把皱纹当噪点清除。

当世界被切成Token,整体感被悄悄删除。

美术馆用AI修复古画,算法把画家故意留下的飞白笔触补上;音乐平台用AI重制老歌,底噪里的咳嗽声被判定为杂音。

精准让作品失去人气,也失去记忆。

好处同样真实。

视障用户打开相机,AI把街景实时转成文字,公交号码、红绿灯秒数一一念出;聋哑学生用AI听课,老师的声音同步变成字幕,语速再快也能跟上。

碎片技术让信息流动到更需要的人手里。

主动权仍在人类。

平台可以决定保留哪些碎片:让皱纹留在全家福,让底噪留在老歌,让笔触留在古画。

算法只负责切,选什么留下,是按下训练按钮那一刻的人心。

再不做选择,下一个被拆碎的就是你的记忆。

来源:魔法远山Lz

相关推荐