谷歌Genie 3登场!世界模型开启AI医疗新纪元,中国发布首个成果!

B站影视 韩国电影 2025-08-07 11:11 1

摘要:作为首个支持实时交互的世界模型,Genie 3能以每秒20-24帧速度实时生成画面,并在720p分辨率下保持数分钟的画面一致性。

昨晚,谷歌DeepMind正式发布Genie 3,这款通用型世界模型,能够生成前所未有的丰富交互环境。

作为首个支持实时交互的世界模型,Genie 3能以每秒20-24帧速度实时生成画面,并在720p分辨率下保持数分钟的画面一致性。

相较于前代,Genie 3在分辨率、帧率与交互时长等方面进一步优化,并首次加入“可提示的世界事件”和“视觉记忆”等关键特性,使得真实感大幅提升。

一句话,Genie 3可以根据需求生成近乎真实的现实世界。

Genie 3的诞生,再次点燃了业界对于世界模型的热情。

所谓世界模型(World Model),即是一种能够预测未来情况、帮助模型理解和规划行动的内部模拟系统。

它的重要意义在于让机器能够像人类一样进行高效的决策,不再仅依赖于当下观察到的信息,而是基于现实情境和事实进行推理。

正如Meta首席AI科学家、图灵奖得主Yann LeCun所言:「如果AI不能理解世界的运作,就永远只是“工具”,而世界模型是让AI拥有“常识”的第一步。」

世界模型将大大提升AI的“智能”水平,从而为医疗健康带来更多可能性。

今年1月,临床研究专家Matthew H. Maxwell发布了一篇博客文章,他认为世界模型有望将AI医疗提升到一个新的层次,包括更准确的预测疾病风险、更早的干预以及更加个性化的治疗。

6月,香港科技大学(广州)与约翰霍普金斯大学等机构的研究团队合作推出了首个医学世界模型(Medical World Model),首次让AI具备了「预演」疾病演变的能力,通过生成式模型模拟不同治疗方案下的肿瘤变化,为临床决策提供可视化依据。

论文链接:https://arxiv.org/pdf/2506.02327

在大语言模型(LLM)彻底改变了AI医疗的现有格局之后,世界模型正崭露头角,有望带领我们进入一个更具革命性的新阶段。

它将使AI不再局限于静态数据,而是能够理解、模拟和预测一个更加贴近现实、更加动态变化的医疗环境,为医生和患者带来前所未有的智能辅助。

谷歌祭出「创世引擎」,世界模型重塑AI医疗

在DeepMind研究路线图中,世界模型是迈向通用人工智能(AGI)的重要阶梯:通过学习环境的时空动态,它们不仅预测未来状态,还能评估自身行动的后果。

2024年2月,DeepMind发布了第一代Genie,依靠超过20万小时的公开互联网游戏视频学习而成。

2024年12月,Genie 2问世,实现了从静态照片到可交互3D场景的转换,虽然只能维持几十秒。

而昨晚发布的Genie 3,在进一步提升分辨率、帧率与交互时长的同时,最大的亮点在于实时响应的用户交互,以及能够长达数分钟的场景一致性。

根据官方介绍,Genie 3的一致性是一种涌现能力,能够基于场景描述和用户动作逐帧生成更加丰富,动态,变化的世界。

如此突破,让DeepMind首席执行官、2024年诺贝尔化学奖得主Demis Hassabis感叹道,上世纪90年代,他曾梦想有一天实现这一技术。如今,愿望终于达成。

Genie 3成为世界模型的重要时刻,为了让AI能够学习并理解真实世界的运作规律,OpenAI、DeepMind、李飞飞等我们耳熟能详的名字,正在前赴后继。

那么,世界模型,到底能为医疗带来什么呢?

曾在知名临床研究机构Alcanza Clinical Research担任首席营销官和首席运营官的Matthew H. Maxwell认为,这可能预示着AI医疗的新阶段

他表示,AI已经在医疗保健领域展示了其应用价值,从解读医学影像到支持临床决策和简化患者数据管理。

而世界模型允许进行更精细的推理、长期规划和个性化干预,有望将这些应用提升到一个新的复杂层次。

比如说,在预防医学领域,世界模型可以:

整体风险评估: 考虑时间跨度内的多种变量(例如持续的血糖监测数据、体力活动记录、饮食史)以提供情境相关的风险预测。
个性化预防策略: 模拟患者特定的场景——例如不同的锻炼方案或饮食变化——并推荐最有效的行动方案。
实时更新和警报: 整合可穿戴传感器和远程监测设备的数据,动态调整建议。
纵向洞察: 建模患者在一生中的风险概况,当疾病风险开始上升时,允许采取主动干预措施。

他指出,目前世界模型在医疗领域已经有一些潜在/初步的应用。

例如,英国国民健康服务(NHS)正在测试AI模型,以预测败血症风险。虽然这些模型没有明确标记为“世界模型”,但它们整合了随时间变化的患者轨迹——这是构建世界模型的核心原则。

又比如,一些医院已经开始将远程血压监测数据整合到AI驱动的护理路径中,“世界模型”可以细化药物剂量调整和生活方式建议。

另外,在药物发现领域,世界模型可以作为一个高效的模拟器,科学家可以在这个虚拟实验室里进行数百万次实验,大大加速研究进程,降低成本。

尽管如此,数据仍是构建世界模型的最大挑战,医疗数据往往不完整、噪声大且分散,而世界模型需要更加全面的数据集。

如何整合这些数据源需要临床医生、AI科学家、政策制定者和患者的共同努力。

港科大团队联手,发布首个医学世界模型

世界模型在医疗领域的潜力巨大,一些团队已经将蓝图变为现实。

今年6月,香港科技大学(广州)约翰霍普金斯大学等机构的研究团队合作提出的首个医学世界模型(Medical World Model,MeWM)

论文第一作者为杨逸君,共同作者包括计算机视觉奠基人Alan Yuille和美国工程院院士Rama Chellappa,通讯作者为朱磊和陈杰能。

这项成果引入世界模型理念,构建了「观察–模拟–评估–优化」的闭环路径。

模型以影像数据为起点,通过感知模块建立初始状态。接着,进展预测模型会模拟不同干预措施下的未来走向。基于生存评估的结果,策略模块生成旨在恢复的行动。这些行动反过来影响后续的观察与模拟,形成一个优化临床决策的闭环。

具体来看,模型在以下三个方面做出了重要突破:

肿瘤演变模拟器:使用3D扩散模型模拟不同治疗方案下的肿瘤形态演变

生存风险预知:通过生存分析模型预测治疗方案的患者预后生存风险,利用逆动力学推理最优治疗方案,方案制定准确率大幅超越传统多模态大模型;

临床决策闭环:构建「方案生成-模拟推演-生存评估」的自动化、可视化优化循环,通用支持癌症介入治疗规划。

在术后肿瘤生成效果评估中,MeWM经受了由三位放射科医生参与的「图灵测试」。研究共准备了240份CT图像,其中120例为真实术后图像,另外120例由不同模型合成。

结果显示,MeWM 所生成图像被误判为真实的比例最高,远优于其他方法,说明其合成结果在外观上最接近真实术后肿瘤

在肝癌TACE治疗方案中,MeWM 展现出显著的性能优势。

在私有数据集上,其F1-score达到52.38%,较GPT-4o、Claude-3.7和MedGPT等多模态大模型提升超过10%;在公开数据集上,F1-score达到64.08%,接近专业放射科医生(71.43%)的水平。

不同于仅依赖视觉语言推理的模型,MeWM基于生成的术后CT进行生存分析评分,使得模型能够更准确地判断不同治疗组合带来的潜在疗效差异

不同于其他模型,MeWM真正厉害的地方在于,能模拟未来的各种可能,然后反过来告诉医生现在该怎么做,成为世界模型在临床决策中的首次落地实践。

写在最后

Genie 3的问世,代表了世界模型的最新前沿,而像MeWM这样的成果,则向我们展现出世界模型在医疗领域的巨大应用潜力。

世界模型所带来的,不仅是更精准的诊断,更是一个能够模拟、预测和优化复杂医疗情境的全新智能引擎。

它让AI拥有了“常识”,能够真正像人类一样思考和规划,为医生和患者带来更具预见性、更高效的医疗解决方案。

可以预见,这将是未来医疗健康领域最令人期待的变革之一。

来源:智药局

相关推荐