腾讯研究院AI速递 20250604

摘要：微软发布Bing Video Creator，由OpenAI的Sora提供技术支持，可通过自然语言生成多种类型视频；

生成式AI

一、微软发布Bing Video Creator，由OpenAI的Sora技术支持

1. 微软发布Bing Video Creator，由OpenAI的Sora提供技术支持，可通过自然语言生成多种类型视频；

2. 该服务免费使用，提供快速和标准两种生成模式，初始有10次快速生成机会，生成视频长度为5秒；

3. 系统内置安全保障措施防止滥用，并为每个生成视频添加内容凭证和溯源信息，目前国区尚未开放。

二、 Manus推出全新的幻灯片功能，一手实测！10分钟8页PPT

1. Manus新推出的幻灯片功能获好评，能在10分钟内生成8页专业PPT，并支持导出为Google Slides；

2. 实测过程显示Manus能自动搜索资料、规划结构、生成内容，支持即时修改和多种导出格式，但存在页面显示不完全问题；

3. 与Genspark对比，Manus速度更快(10分钟vs20分钟)，功能更强，被网友评为当前PPT制作最佳。

三、 Character.ai发布AvatarFX，图片人物能说话唱歌，多轮对话

1. AI陪伴应用Character.ai(c.ai)推出AvatarFX视频生成功能，可让静态图片中的人物开口说话、唱歌并与用户互动；

2. AvatarFX基于DiT架构，技术亮点在于高保真度和强时间一致性，即使在多角色、长序列或多轮对话的复杂场景中依然保持稳定；

3. c.ai还推出多项AI创作功能，包括沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat和即将上线的Stream；谷歌收购c.ai的交易正面临美国反垄断调查。

四、 Fellou 2.0发布：你的专属贾维斯，开启AI批量化生产新时代

1. Fellou 2.0正式发布，作为Agentic Browser类似"贾维斯"般的智能体，实现AI任务7x24小时批量化生产；

2. 新版本实现更快(速度提升1.2-1.5倍)、更惊人(支持多样化交付)、更可靠(成功率从31%提升至80%)的性能；

3. 基于全新Eko 2.0架构，支持多任务并行处理，未来将推出Windows版本、取消邀请码，并持续优化用户体验和模型智能。

五、 YouWare氛围编程平台，AI生成+一键上线，像拍照一样简单

1. YouWare是一个面向AI时代创作者的"氛围编程"平台，让非程序员也能通过AI将创意转化为网页并在线分享；

2. 平台的核心优势在于"所想即所见"体验，用户只需描述想法，AI就能生成代码并即时可视化展示，支持一键上线分享；

3. YouWare由自研AI Agent和Sandbox技术支撑，创建了类似"Instagram"的创作社区，还设计了"Knot"奖励机制鼓励优质内容创作。

六、万帧？单卡？智源开源轻量级超长视频理解模型Video-XL-2

1. 智源研究院开源轻量级超长视频理解模型Video-XL-2，能在单卡上高效处理长达万帧的视频输入；

2. 模型由视觉编码器、动态Token合成模块和大语言模型三部分组成，采用四阶段渐进式训练方法，并引入分段式预装填策略和双粒度KV解码机制；

3. Video-XL-2在主流评测基准上超越所有轻量级开源模型，编码2048帧视频仅需12秒，可应用于影视内容分析、异常行为监测等场景。

七、全球著名CRM平台Salesforce收购了AI Agent平台Moonhub

1. 全球第一CRM平台Salesforce收购AI Agent平台Moonhub，后者团队将全部加入Salesforce开发Agentforce平台；

2. Salesforce CEO Marc Benioff看好智能体发展，立下愿景到2025年底通过Agentforce开发十亿个智能体，目前已有3000家企业付费客户；

3. Moonhub专注于招聘智能体开发，能自主寻找、筛选候选人，将与Salesforce现有HR智能体功能互补，进一步增强Salesforce在智能体赛道的影响力。

前沿科技

八、李飞飞开源Forge渲染器，普通设备上渲染AI生成的3D世界

1. 李飞飞空间智能公司World Labs开源核心技术Forge渲染器，可在所有设备上实时流畅渲染AI生成的3D世界；

2. Forge是Web端3D高斯泼溅(3DGS)渲染器，无缝集成three.js，支持多个splat对象、多摄像头及实时动画/编辑，相当于空间智能领域的"着色器"；

3. 技术关键在于高效的画家算法处理排序问题和可编程数据流水线，允许开发者像处理三角形网格一样轻松处理AI生成3D世界。

报告观点

九、卡帕西的选择：日常4o快又稳，烧脑切o3做后盾，o4备胎

1. 卡帕西分享ChatGPT模型选择指南：日常简单问题用GPT-4o快速稳定，复杂重要任务切换到o3作为推理后盾，o4目前仅提供mini版本效果不及o3；

2. 具体使用场景：40%简单日常问题用4o，40%复杂重要问题用o3，代码完善用GPT-4.1，深入理解多链接内容用深度研究功能；

3. 模型选择核心原则是"二选一"：先判断任务是否重要且愿意等待(选o3)，还是不重要且需快速了解(选4o)，"选错模型不会完蛋，放弃思考才会完蛋"。

十、 ChatGPT 为什么越来越“懂你”？一文解析它背后的记忆机制

1. ChatGPT记忆系统由保存记忆和聊天历史两大系统构成，后者又分为当前会话历史、对话历史和用户洞察三个子系统；

2. 技术实现上，保存记忆通过bio工具实现，对话历史利用向量空间建立多层索引，用户洞察则通过聚类优化算法和LLM生成；

3. 用户体验方面，记忆机制特别是用户洞察系统(贡献占比可能超80%)让ChatGPT更加"懂你"，从"要你告诉我"变成"我自己看得出"，显著提升了模型的智能感。

👇加入AGI数据库，AI智能问答

👇订阅下方合集，获取每日推送

来源：腾讯研究院

标签：智能体腾讯速递研究院 sora

本文地址：http://news.43b.com.cn/a/467947.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐