模态模型资讯

AI测试全攻略：零基础打造多模态模型评测平台

在AI技术日新月异的今天，如何有效评测大模型性能成为测试工程师面临的新挑战。本文将带您深入探索构建AI测试平台的实战过程，分享多模态模型评测的关键技术与设计思路。

近日，字节跳动创始人张一鸣经常往返北京和新加坡，尤为关注AI业务，从去年下半年开始，他每月会参加一次seed核心技术团队的复盘和讨论会。

今天，在FORCE原动力大会上，火山引擎正式发布豆包大模型1.6、豆包·视频生成模型 Seedance 1.0 pro、豆包·语音播客模型，豆包·实时语音模型在火山引擎全量上线，豆包大模型家族已成为拥有全模态、全尺寸、高性价比的领先模型。截至2025年5月底，

据介绍，它不仅 “看图”，还能 “用图思考”，开启了视觉与文本推理深度融合的问题求解方式。这种 “Thinking with Images” 的能力，使 o3 在视觉推理基准测试 V* Bench 上准确率飙升至 95.7%，刷新了多模态模型的推理上限。

近日，由浙江大学、阿里巴巴达摩院和湖畔实验室联合研究团队发表了一项突破性研究，探讨了多模态大语言模型(MLLMs)在第一人称场景中对物体的认知能力。这篇题为《EOC-Bench: Can MLLMs Identify, Recall, and Forecast

SmolVLM2 是由 Hugging Face 开发的一系列紧凑型但功能强大的大型模型，旨在为资源受限的设备（如智能手机和嵌入式系统）带来先进的语言和视觉语言处理能力。这些模型以其小型化设计著称，适合在设备上运行，填补了大型模型与小型设备性能差距的空白。本文

自研大模型混元将迎来重大升级，基于腾讯自研大模型混元的首个端到端语音通话模型Hunyuan-Voice，最快将于今年6月上线腾讯元宝App，与字节跳动旗下的豆包AI视频通话功能形成正面竞争。

继不久前在2025腾讯云AI产业应用峰会上，腾讯方面宣布全面升级混元大模型矩阵产品，其中包括发布基于混元打造的首个端到端语音通话模型Hunyuan-Voice后。日前有消息源透露，Hunyuan-Voice最快将于今年6月上线腾讯元宝App，或意在与字节跳动旗

该混合架构将自回归与扩散模型的优势结合。 Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究（统一多模态模型 BLIP3-o）中也采用了自回归 + 扩散框架。

该混合架构将自回归与扩散模型的优势结合。Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究（统一多模态模型 BLIP3-o）中也采用了自回归 + 扩散框架。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

法国AI企业Mistral AI周一（11/18）发布了全新的多模态模型Pixtral Large，以及采用Pixtral Large的新一代聊天机器人Le Chat，它能理解文件与图像，得以生成形象，还能替用户搜索网络。