腾讯研究院AI速递 20250604

B站影视 电影资讯 2025-06-04 00:01 1

摘要:微软发布Bing Video Creator,由OpenAI的Sora提供技术支持,可通过自然语言生成多种类型视频;

生成式AI

一、 微软发布Bing Video Creator,由OpenAI的Sora技术支持

1. 微软发布Bing Video Creator,由OpenAI的Sora提供技术支持,可通过自然语言生成多种类型视频;

2. 该服务免费使用,提供快速和标准两种生成模式,初始有10次快速生成机会,生成视频长度为5秒;

3. 系统内置安全保障措施防止滥用,并为每个生成视频添加内容凭证和溯源信息,目前国区尚未开放。

二、 Manus推出全新的幻灯片功能,一手实测!10分钟8页PPT

1. Manus新推出的幻灯片功能获好评,能在10分钟内生成8页专业PPT,并支持导出为Google Slides;

2. 实测过程显示Manus能自动搜索资料、规划结构、生成内容,支持即时修改和多种导出格式,但存在页面显示不完全问题;

3. 与Genspark对比,Manus速度更快(10分钟vs20分钟),功能更强,被网友评为当前PPT制作最佳。

三、 Character.ai发布AvatarFX,图片人物能说话唱歌,多轮对话

1. AI陪伴应用Character.ai(c.ai)推出AvatarFX视频生成功能,可让静态图片中的人物开口说话、唱歌并与用户互动;

2. AvatarFX基于DiT架构,技术亮点在于高保真度和强时间一致性,即使在多角色、长序列或多轮对话的复杂场景中依然保持稳定;

3. c.ai还推出多项AI创作功能,包括沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat和即将上线的Stream;谷歌收购c.ai的交易正面临美国反垄断调查。

四、 Fellou 2.0发布:你的专属贾维斯,开启AI批量化生产新时代

1. Fellou 2.0正式发布,作为Agentic Browser类似"贾维斯"般的智能体,实现AI任务7x24小时批量化生产;

2. 新版本实现更快(速度提升1.2-1.5倍)、更惊人(支持多样化交付)、更可靠(成功率从31%提升至80%)的性能;

3. 基于全新Eko 2.0架构,支持多任务并行处理,未来将推出Windows版本、取消邀请码,并持续优化用户体验和模型智能。

五、 YouWare氛围编程平台,AI生成+一键上线,像拍照一样简单

1. YouWare是一个面向AI时代创作者的"氛围编程"平台,让非程序员也能通过AI将创意转化为网页并在线分享;

2. 平台的核心优势在于"所想即所见"体验,用户只需描述想法,AI就能生成代码并即时可视化展示,支持一键上线分享;

3. YouWare由自研AI Agent和Sandbox技术支撑,创建了类似"Instagram"的创作社区,还设计了"Knot"奖励机制鼓励优质内容创作。

六、 万帧?单卡?智源开源轻量级超长视频理解模型Video-XL-2

1. 智源研究院开源轻量级超长视频理解模型Video-XL-2,能在单卡上高效处理长达万帧的视频输入;

2. 模型由视觉编码器、动态Token合成模块和大语言模型三部分组成,采用四阶段渐进式训练方法,并引入分段式预装填策略和双粒度KV解码机制;

3. Video-XL-2在主流评测基准上超越所有轻量级开源模型,编码2048帧视频仅需12秒,可应用于影视内容分析、异常行为监测等场景。

七、 全球著名CRM平台Salesforce收购了AI Agent平台Moonhub

1. 全球第一CRM平台Salesforce收购AI Agent平台Moonhub,后者团队将全部加入Salesforce开发Agentforce平台;

2. Salesforce CEO Marc Benioff看好智能体发展,立下愿景到2025年底通过Agentforce开发十亿个智能体,目前已有3000家企业付费客户;

3. Moonhub专注于招聘智能体开发,能自主寻找、筛选候选人,将与Salesforce现有HR智能体功能互补,进一步增强Salesforce在智能体赛道的影响力。

前沿科技

八、 李飞飞开源Forge渲染器,普通设备上渲染AI生成的3D世界

1. 李飞飞空间智能公司World Labs开源核心技术Forge渲染器,可在所有设备上实时流畅渲染AI生成的3D世界;

2. Forge是Web端3D高斯泼溅(3DGS)渲染器,无缝集成three.js,支持多个splat对象、多摄像头及实时动画/编辑,相当于空间智能领域的"着色器";

3. 技术关键在于高效的画家算法处理排序问题和可编程数据流水线,允许开发者像处理三角形网格一样轻松处理AI生成3D世界。

报告观点

九、 卡帕西的选择:日常4o快又稳,烧脑切o3做后盾,o4备胎

1. 卡帕西分享ChatGPT模型选择指南:日常简单问题用GPT-4o快速稳定,复杂重要任务切换到o3作为推理后盾,o4目前仅提供mini版本效果不及o3;

2. 具体使用场景:40%简单日常问题用4o,40%复杂重要问题用o3,代码完善用GPT-4.1,深入理解多链接内容用深度研究功能;

3. 模型选择核心原则是"二选一":先判断任务是否重要且愿意等待(选o3),还是不重要且需快速了解(选4o),"选错模型不会完蛋,放弃思考才会完蛋"。

十、 ChatGPT 为什么越来越“懂你”?一文解析它背后的记忆机制

1. ChatGPT记忆系统由保存记忆和聊天历史两大系统构成,后者又分为当前会话历史、对话历史和用户洞察三个子系统;

2. 技术实现上,保存记忆通过bio工具实现,对话历史利用向量空间建立多层索引,用户洞察则通过聚类优化算法和LLM生成;

3. 用户体验方面,记忆机制特别是用户洞察系统(贡献占比可能超80%)让ChatGPT更加"懂你",从"要你告诉我"变成"我自己看得出",显著提升了模型的智能感。

👇加入AGI数据库,AI智能问答

👇订阅下方合集,获取每日推送

来源:腾讯研究院

相关推荐