Nature:AI会取代病理科医生吗?

B站影视 韩国电影 2025-06-08 18:26 2

摘要:只要你做过活检,那么你(至少是你的组织样本)就一定经受过病理学家的诊断。正如加拿大多伦多大学的计算机科学家王博(Bo Wang)所说,“病理学是当代医学诊断的基石,在癌症诊断方面尤其如此。”

本文来源:追问

深度学习基础模型将颠覆医疗诊断,但质疑声犹存。

——戴安娜·权

只要你做过活检,那么你(至少是你的组织样本)就一定经受过病理学家的诊断。正如加拿大多伦多大学的计算机科学家王博(Bo Wang)所说,“病理学是当代医学诊断的基石,在癌症诊断方面尤其如此。

而病理学家们的境况却并不乐观。一方面,全球范围内病理学人才短缺,病理诊断的需求远超过出供给。而另一方面,工作要求也愈发严苛。他们不仅要完成组织切片、染色、显微镜观察等常规任务,还要掌握如基因检测和其他分子标记物分析等需要额外工具和专业知识的复杂检测。对于王博和他的同行来说,解决这个日益严重问题的突破口,可能就在于人工智能(AI)

AI工具,可以帮助病理学家做很多事情,例如标注组织中的可疑区域、标准化诊断结果以及揭示人眼难以觉察的规律。王博认为,“这些工具具备提升诊断准确性、可复现性以及效率的潜力,同时还能为挖掘大规模病理学与分子数据开辟新的研究方向。”

在过去几十年里,病理切片日益数字化,病理学家能够在屏幕上而非显微镜下观察样本——尽管许多人仍偏爱显微镜。这些完整的数字化切片图像,让计算机科学家和生物医学工程师有机会开发出基于AI的辅助工具。尤其是,随着ChatGPT和DeepSeek等AI聊天机器人的横空出世,更是激发了研究者将类似技术应用于病理学领域的信心。王博表示,“这个研究领域非常活跃,每天都有大量令人振奋的新鲜事物涌现。”

目前,科学家们已设计出能执行疾病分类、治疗结果预测和疾病生物学标记物识别等任务的AI模型,其中一些甚至具备聊天机器人功能,可协助医生和研究者解析隐藏在染色组织切片中的数据。马萨诸塞州波士顿哈佛医学院的计算机科学家费萨尔·马哈茂德(Faisal Mahmood)指出,此类模型“能完整模拟病理学全流程”,从分析切片、要求检测到撰写报告均可实现,“当今技术已经能实现这一切。”

但也有一些研究者对此持谨慎态度。他们认为AI模型尚未得到充分验证,且某些模型的不透明特性给临床应用带来了挑战。”归根结底,这些工具想要进入医院场景、直接用于患者,就必须提供可靠、准确且稳健的结果,“明尼苏达州罗切斯特市梅奥诊所的计算机科学家哈米德·提祖什(Hamid Tizhoosh)表示,“我们仍在翘首期待这样的工具的真正到来。”

基础模型从何而来?

早期的病理学AI工具主要用于执行明确的任务,比如乳腺癌活检中检测组织样本中的癌细胞。但随着“基础模型”的(foundation models)出现,这类能够适应各种未经专门训练的应用场景的模型,为病理领域带来了全新的解决途径。

其中最著名的基础模型,便是驱动ChatGPT之类生成式AI工具的大型语言模型(LLM)。然而,ChatGPT的训练依赖于互联网上的海量文本数据,病理学家却缺乏类似规模的大数据资源来训练自己的软件。

这个问题直到2023年才浮现出对应的解决方案——科技巨头Meta的研究人员发布了专为图像分类等视觉任务设计的基础模型DINOv2[1]。马哈茂德指出,这项研究带来了一个关键洞察:训练数据集的多样性比其规模更重要。

UNI 模型. 图源:github

基于这一原则,马哈茂德团队于2024年3月发布了他们称为病理学通用模型(UNI)[2]。他们从10万张载玻片中收集了包含患病与健康器官组织的超过1亿张图像数据集,然后采用自监督学习算法(一种能在海量数据中自动识别规律的机器学习模型)对该数据集进行了训练。该团队报告显示,UNI在数十项分类任务中,包括乳腺癌转移灶检测和脑部多种肿瘤亚型识别,超越了现有最先进的病理计算模型。当前版本UNI 2的训练数据集进一步扩展,涵盖了超过2亿张图像、35万张载玻片(参见go.nature.com/3h5qkwb)。

CONCH 模型. 图源:github

延续多样化数据集理念,同时整合病理切片图像和来自PubMed等医学数据库的文本数据,该团队还设计了第二个基础模型——组织病理学图文对比学习模型(CONCH)多模态模型[3]。研究人员发现,与UNI类似,CONCH在执行癌症分型等分类任务时表现优于其他模型。例如,它能以超过90%的准确率区分携带BRCA基因突变的癌症亚型,而其他模型的表现大多仅达到随机水平。该模型还能对图像进行分类与描述,实现文本-图像的双向检索,并生成特定癌症病理模式的图示(不过其表现精度略低于其分类能力)。在直接比较评估中,即使下游模型训练数据点极少,CONCH始终优于基线方法。

UNI模型与CONCH模型,现已在模型共享平台Hugging Face公开发布(参见go.nature.com/44g24w2)。研究者已将其应用于多种场景,包括对神经母细胞瘤进行分级分型、治疗效果预测,以及特定疾病相关基因生物标志物的识别。两款模型下载量突破150万次,引用达数百次。马哈茂德表示,“人们的使用方式完全超出了我的预期,我从未意识到竟有这么多人对计算病理学感兴趣。”

图源:Hugging Face. 截图时间2025年6月4日

其他研究团队也在开发各自的病理学基础模型。例如,微软的GigaPath,基于美国28家癌症中心提供的超过17万张切片进行训练,用于执行癌症分型等任务[4];香港科技大学计算机科学家陈浩团队设计的mSTAR(多模态自监督预训练模型),整合了基因表达图谱、图像与文本数据,专用于转移癌检测、癌症分型及其他任务,该模型同样发布于Hugging Face平台(详见go.nature.com/3ylmauf)[5]。

mSTAR模型. 图源:https://huggingface.co/

如今,马哈茂德与陈浩的团队还在发力构建各自的“智能辅助系统”(Copilots)。马哈茂德团队于2024年6月发布了通用型AI助手PathChat[6],他们将UNI与大型语言模型相结合,通过近百万条取自PubMed文献和病例报告等来源的问答数据进行微调,使其可以支持病理学家就上传图像展开“对话“并生成报告。目前这款聊天机器人已授权给马萨诸塞州波士顿生物医疗公司Modella AI,并于今年初获得了美国食品药品监督管理局(FDA)的突破性器械认定。类似地,陈浩团队也开发了一款聊天机器人SmartPath。据陈浩介绍,表示该工具目前正在中国多家医院接受测试,病理学家正对其在乳腺癌、肺癌和结直肠癌诊断中的能力进行全面评估。

PathChat 产品demo. 来源:Modella AI

除分类任务外,PathChat与SmartPath均具备类似智能体的能力,能够自主规划、决策和执行操作。据马哈茂德介绍,PathChat可优化病理学家工作流程,例如自动标出特定疾病疑似病例、开单安排辅助检测项目以及撰写病理报告。

德国德累斯顿理工大学肿瘤学家雅各布·卡瑟(Jakob Kather)指出,基础模型代表着病理学领域“真正变革性的技术进步”——尽管它们尚未获得监管机构批准。“我认为这些工具成为广泛可用的经临床验证产品还需两三年左右时间,“他补充说。

AI真能掀起一场病理行业的大变革吗?

并非所有人都相信“基础模型会带来医学领域的突破性变革”——至少短期内不会。

乔治亚州亚特兰大埃默里大学生物医学工程师阿南特·马达布希(Anant Madabhushi)指出,基础模型面临一个关键问题“准确性”,尤其是如何量化准确性。由于数据相对匮乏,大多数病理学AI研究采用“交叉验证”方法:将数据集的一部分用于训练,另一部分用于测试。然而,这种方法可能导致过拟合等问题,即算法在与模型先前接触过的相似数据上表现良好,但在差异较大的数据上表现不佳。

“交叉验证的问题在于它往往提供过于乐观的结果。”马达布希解释道,“验证模型最严谨的方法是采用独立的外部验证,外部测试集必须与训练集完全分离,且理想情况下应来自独立机构。”

此外,这些模型的实际表现,可能也并不如开发者宣称的那样出色。在2025年2月发表的一项研究[7]中,提祖什(Tizhoosh)及其同事对包括UNI和GigaPath在内的多个病理学基础模型进行了测试。研究团队采用了零样本测试方法,即使用模型未曾接触过的数据集进行测试,此处选用包含9000多人约11000张切片的癌症基因组图谱数据。测试结果发现,即便某些模型在肾脏等特定器官的表现确实不错,但被评估模型识别癌症的平均准确率甚至低于抛硬币的随机概率。

使用Yottixel平台评估了几种基础模型在不同器官全切片图像上的0-shot检索性能。其中绿色标记了各器官的最佳结果,粉色标记则为GigaPath表现不佳的结果。图源:[7]

提祖什认为,已发表性能与其团队观察结果间的差异可能源于“微调”操作。模型研究者通常在使用前通过提供大量相关病例对模型进行微调,而提祖什团队则直接使用了原始模型进行测试。尽管如此,这些结果也表明基于AI的病理学工具可能不如设计者宣称的那样具有“革命性”。提祖什指出,“我担忧他们正在过度承诺。而这将引发新一轮对AI的失望浪潮——我们称之为‘AI寒冬’。”

多个研究团队已着手推动验证与基准测试流程的标准化。例如,提祖什正与纽约纪念斯隆-凯特琳癌症中心、休斯顿德克萨斯大学MD安德森癌症中心共同筹备一项挑战赛:主办方会给参赛者1.5亿张图像用于模型训练,随后要求他们提交模型以接受独立测试。提祖什介绍说,“这项赛事计划年底结束,我们希望通过这项赛事,形成一套规则与指南。”

荷兰奈梅亨拉德堡德大学医学中心的计算机科学家弗朗切斯科·乔姆皮(Francesco Ciompi)领导的团队也发起了多项类似挑战。其中,一个名为UNICORN(计算病理学、放射学与自然语言成像统一基准)的项目,计划对多模态基础模型执行包括病理学和放射学在内的一系列任务进行测试,乔姆皮说“这一项目的目标,在于评估这些基础模型在无需过多微调时的表现。”

病理基础模型绝非易事

即使是基础模型的积极拥护者也得承认,验证工作绝非易事。这些模型本身被设计为开放式架构,具有高度适应性。正如卡瑟所说,“最保守”的评估方式是对每项具体应用单独测试,这也意味着“如果有成千上万种用途,就必须为每种用途收集海量组织切片样本,再逐一验证模型效果。”

当前学界正围绕“性能评估的通用基础方法”展开讨论。例如,卡瑟就提出,当AI模型具备更接近人类的能力时,或许应采用人类能力评估方式。“就像我们评估医生时,并非测试他们对所有病例的诊断能力,而是通过挑选一些例子来评估他们的表现,以此考察其综合认知能力。”

按种族/民族和复发评分(RS)划分的乳腺癌特定死亡累积风险。湖蓝色代表非西班牙裔白人,墨绿色代表黑人,虚线代表亚裔/太平洋岛民,橙色代表西班牙裔。在每个 RS 组中,黑人女性的累积死亡风险明显高于非西班牙裔白人女性。图源:[8]

对于基础模型的其他问题,如普适性问题:如何确保这些工具适用于不同人群?2021年,用于评估乳腺癌患者化疗获益率的分子检测Oncotype DX就曾引发这类争议——研究者发现,尽管该检测上市了二十余年,但其对黑人女性的有效性远低于白人女性[8]。因此,马达布希警告说,“如果在开发和验证算法时缺乏针对性考量,必将导致灾难性错误。”

另一个不容回避的问题则是“幻觉“问题——聊天机器人可能编造虚假回答,而在医疗领域,错误答案可能导致误诊或漏诊。“如何量化这些模型的安全性与可解释性以降低诊疗风险?”王博质问道,“FDA等监管机构目前对医疗领域的生成式模型尚无任何规范。”

实际上,基础模型本质上属于“黑箱系统”,我们难以追溯其诊断决策的底层逻辑。正如马达布希所指出的,“基础模型确实潜力无限,但我们始终无法理解它们究竟捕捉到了哪些特征。”

因此,马达布希致力于研究“可解释的AI”——这类模型基于传统技术,研究者能够通过编程使算法精确定位与疾病相关的特定生物学特征。例如,其团队开发的模型能够识别预示早期乳腺癌的胶原纤维特征性排布模式[9],以及预测癌症患者免疫治疗效果的免疫细胞空间构型[10]。(马达布希联合创立了Picture Health,一家位于俄亥俄州克利夫兰的生物技术公司,该公司已经获得了这些技术的许可,并正在试图得到监管批准中。)

其他研究者也在致力于破解模型的黑箱之谜——至少实现部分可解释性。陈浩表示,他的团队正在开发模型决策路径追溯技术,试图揭示算法决策的内在逻辑。“我们希望我们的模型既准确又值得信赖,可解释性对医生受众而言尤其重要。”尽管这仍有长路要走,但陈浩对此持乐观态度:

“一切才刚刚开始。短期内,这项技术的能力可能会被高估,但从长远来看,它蕴藏的潜力是否无意中被低估了也未可知。”

编译后记

阅读此文后,我深感AI在病理学领域正掀起一场静默而深刻的革命。基础模型如UNI、CONCH的涌现,在病理诊断的准确和效率上给人以巨大震撼,展现了令人振奋的潜力,而PathChat等智能助手的出现,更预示着AI能作为病理诊断的“协作者”,为病理工作者门提供参考,有助于缓解诊断资源的短缺。

然而,曙光之下暗礁犹存。文中提到的测试也提示AI在病理领域还有很长的路可走:未经微调的模型在独立验证中表现堪忧,暴露了过拟合与泛化能力的致命短板。同时,我们对AI的理解限制了我们对其的使用:医生无法理解AI如何判定某组织为癌变时,该如何信任其结果并为之负责?而马达布希指出的种族数据偏差(如OncotypeDX对黑人女性的失效)更警示我们,AI病理诊断的普适性与公平性仍有待考察。

综合来看,AI病理学的未来绝非坦途,却值得坚定探索。其价值不在于替代病理学家,而在于解放他们的精力,使其聚焦于复杂病例研判与人文关怀。当下关键,是建立严格的独立验证体系与伦理框架,推动“可解释的AI”发展,并确保训练数据的多样性与代表性。

诚如陈浩所言,短期内或存在高估,但长远潜力更易被低估。唯有技术突破与审慎验证并重,这场变革才能真正惠及每一个等待诊断的生命。前路漫漫,但方向已明。

原文链接:

参考文献:

1.Oquab, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2304.07193 (2023)

2.Chen, R. J. et al. Nature Med. 30, 850–862 (2024).

3.Lu, M. Y. et al. Nature Med. 30, 863–874 (2024).

4.Xu, H. et al. Nature 630, 181–188 (2024).

5.Xu, Y. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2407.15362 (2024).

6.Lu, M. Y. et al. Nature 634, 466–473 (2024).

7.Alfasly, S. et al. Sci. Rep. 15, 3990 (2025).

8.Hoskins, K. F., Danciu, O. C., Ko, N. Y. & Calip, G. S. JAMA Oncol. 7, 370–378 (2021).

9.Li, H. et al. npj Breast Cancer 7, 104 (2021).

10.Wang, X. et al. Sci. Adv. 8, eabn3966 (2022).

来源:人工智能学家

相关推荐