大模型如何理解图像、音频等多模态内容（多模态 Tokenization）

摘要：刷短视频时，那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。

3秒克隆你的声音，AI正在拆碎你的一切

刷短视频时，那条直播带货的虚拟主播连你家乡的拐弯口音都学得像。

别惊讶，后台已经把她的脸、声音、口头禅切成上千块小碎片，随时拼成新的你。

这项技术叫多模态Tokenization。

文字被切成词，图片被切成16×16小格，音频按50次每秒取样，视频直接拆成一页页PPT。

谷歌Gemini最新测试里，一段两分钟的短片被拆成2880张静帧，系统能逐帧检索出背景里的商标。

更细的是声音。

Meta六月公开的Voicebox只要三秒原声，就能让任何人说任何话，连你感冒的鼻音都能保留。

国内团队用抖音竖屏数据训练后，识别手机自拍构图的速度比传统方案快四成，流量池里点赞最高的角度被算法牢牢记住。

碎片化的代价正在浮现。

工程师李航告诉我，他用大模型给母亲做生日视频，系统把老人脸上的老年斑全部抹平，照片像塑料娃娃。

观众爱看光滑皮肤，算法就把皱纹当噪点清除。

当世界被切成Token，整体感被悄悄删除。

美术馆用AI修复古画，算法把画家故意留下的飞白笔触补上；音乐平台用AI重制老歌，底噪里的咳嗽声被判定为杂音。

精准让作品失去人气，也失去记忆。

好处同样真实。

视障用户打开相机，AI把街景实时转成文字，公交号码、红绿灯秒数一一念出；聋哑学生用AI听课，老师的声音同步变成字幕，语速再快也能跟上。

碎片技术让信息流动到更需要的人手里。

主动权仍在人类。

平台可以决定保留哪些碎片：让皱纹留在全家福，让底噪留在老歌，让笔触留在古画。

算法只负责切，选什么留下，是按下训练按钮那一刻的人心。

再不做选择，下一个被拆碎的就是你的记忆。

来源：魔法远山Lz

标签：模态音频模态tokenization tokenizat

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!