摘要:罗克珊娜・达内什乔(Roxana Daneshjou),医学博士、哲学博士,是美国皮肤科人工智能(AI)领域的顶尖专家之一。达内什乔是加利福尼亚州斯坦福大学的生物医学数据科学与皮肤科助理教授,她领导着具有里程碑意义的人工智能研究,是《新英格兰医学杂志・人工智能
罗克珊娜・达内什乔(Roxana Daneshjou),医学博士、哲学博士,是美国皮肤科人工智能(AI)领域的顶尖专家之一。达内什乔是加利福尼亚州斯坦福大学的生物医学数据科学与皮肤科助理教授,她领导着具有里程碑意义的人工智能研究,是《新英格兰医学杂志・人工智能》(NEJM AI)的副主编,并就该主题发表演讲,包括在最近的 2025 年皮肤病研究学会(SID)年会上,她严肃地警告同行,“使用人工智能的皮肤科医生将取代不使用人工智能的皮肤科医生。”
因此,人们可能会认为达内什乔在临床实践中接受人工智能。但她并没有 —— 至少目前还没有。她说,虽然人工智能在涉及写作的办公室任务方面很有帮助,但目前在处理诸如评估皮肤病变或帮助解决诊断难题等任务时,它还不够好。
“你应该只将其用于你能轻松发现并纠正错误的任务。当你不确定答案或下一步该怎么做时,就不应该使用它,因为你可能会被严重误导,” 她在接受 Medscape 医学新闻采访时表示。
但请拭目以待。“最终,一旦我们有了经过有效验证的、能帮助诊断和分诊的人工智能工具,它们基本上将成为标准治疗手段,” 达内什乔说。
以下是对达内什乔关于皮肤科人工智能现状与未来的采访节选。
你说 ‘使用人工智能的皮肤科医生将取代不使用人工智能的皮肤科医生’ 是什么意思?
达内什乔:实际上,这是一个重新提及的说法,最初由放射科医生柯特・朗洛茨(Curt Langlotz)提出,他对放射科医生也提出了同样的观点。关键在于皮肤科医生不会消失。人工智能不会取代皮肤科医生。而是使用人工智能的皮肤科医生将取代不使用人工智能的皮肤科医生。
会有一些皮肤科医生被甩在后面吗?达内什乔:医学总是在发展。曾经有一段时间,我们没有像 CT 扫描和 MRI 这样的先进成像技术。想想现在有多少皮肤科医生使用电子健康记录(EHR),而不是手写所有内容。仍然有一些人在手写,但能够使用 EHR 的医生在很大程度上已经取代了那些不会使用的医生。
这不是一个新现象。每当有新技术出现,它就会融入医疗实践,那些学会适应并采用它的人最终会取代那些不这样做的人。
皮肤科领域对人工智能是否存在恐惧和否认情绪?达内什乔:存在恐惧,但也有热情 —— 有时热情到使用那些尚未准备好用于实际应用的东西。在我在 SID 的演讲中,我谈到了在任何你不知道答案或无法快速验证的临床任务中使用大语言模型(AI)——LLMs—— 是不安全的。这些模型可能存在难以察觉的错误,因为其输出看起来非常有说服力。
你能举例说明在临床中使用大语言模型可能会给皮肤科医生带来什么麻烦吗?
达内什乔:在我的演讲中,我展示了要求人工智能为一位患者计算 RegiSCAR 评分的情况。它给出的输出看起来非常有说服力,但有些分数是错误的。如果你自己不知道 RegiSCAR 评分,你可能就发现不了这个错误。同样,如果你询问药物剂量,有时人工智能能给出正确答案。但研究论文表明它也可能给出错误的剂量。如果你不确定答案,就不应该使用大语言模型来完成这项任务。
这与给它要点并说 “按照这些要点起草一份预先授权信” 或 “为我熟悉的一种疾病为我的患者写一份就诊后总结” 不同,这种情况下你可以验证(文本)的准确性。
目前人工智能在临床中有可靠的应用吗?
达内什乔:首先,我要指出,面向公众的模型不符合《健康保险流通与责任法案》(HIPAA)的规定,所以你在向其中输入患者信息时必须小心。像斯坦福大学这样的一些机构内部有符合 HIPAA 规定的版本。
我对将这些模型用于诊断和治疗非常谨慎,因为它们可能会给出错误信息。我听说皮肤科医生说他们将患者图像输入这些模型以获得鉴别诊断,我强烈建议不要这样做 —— 既出于对 HIPAA 的担忧,也因为其输出不可靠。
那么皮肤科中经过皮肤图像训练、有可能用于识别病变等任务的 “视觉语言” 模型(VLMs)呢?
达内什乔:我们测试过的视觉语言模型的表现比大语言模型更差。它们甚至更处于研究阶段。
当前的人工智能系统在对皮肤病变进行分类方面真的表现出色吗?有很多论文声称它们表现出色,但并没有太多前瞻性试验数据来验证其性能。我们需要更多试验数据来证明某个特定模型在临床环境中能持续良好表现。
所以人工智能在诊断和治疗方面还没有准备好用于实际应用吗?达内什乔:没错。它在辅助角色中更有用 —— 帮助撰写或编辑文本。
你参与了一个 “红队” 活动,该活动让参与者 —— 工程师、计算机科学家以及皮肤科医生等医疗专业人员给人工智能分配医疗任务并提问。结果于 2025 年 3 月发表在《自然》杂志上。你们发现了什么?
达内什乔:我们发现,在所有测试的模型中,错误率约为 20%。正如我们斯坦福大学的首席数据科学家喜欢开玩笑说的那样,“你可以将大语言模型用于任何可接受 20% 错误率的任务。”
你认为人工智能和皮肤科接下来会走向何方?达内什乔:基于图像的模型最终可能会表现得足够好,从而获得美国食品药品监督管理局(FDA)的批准。但我担心的是,这可能会在模型创建者无需证明模型在不同肤色人群中都有效的情况下发生 —— 而这是验证过程中极其重要的一部分。
我们的研究表明,大多数基于图像的人工智能模型在训练和测试中都排除了不同肤色人群。我们还将看到更多的多模态模型 —— 整合图像、文本和分子数据等多种信息的模型 —— 以提供输出或风险评估。这是人工智能的总体发展方向,不仅仅只关注文本或图像,而是像人类一样从多种模态获取信息。
你在临床实践中多久使用一次人工智能?达内什乔:使用得不多。我经营一个研究实验室,所以我在研究中广泛使用它。我用它来辅助撰写科研基金申请,分析我写的推荐信,让它找出不足之处以便我改进。在临床方面,我教过我的护士如何使用我们安全的人工智能来起草预先授权信或对保险(拒赔)进行反驳。但除此之外,我在诊所里不太使用它。
你谈到了人工智能处理临床病例与真实患者的区别。皮肤科医生对此应该了解些什么?达内什乔:新闻标题常常歪曲现实。他们会说,“人工智能模型可以诊断患者。” 但实际上,这些模型被给予的是精心整理的病例,并能够据此提供诊断。
患者并不会像精心整理的病例那样呈现。在实际临床实践中,我必须问,“怎么了?” 我必须进行皮肤检查,识别病变,收集病史,询问病程、症状、职业和日晒情况。我必须收集所有这些信息并做出判断。
有时,病史与所见情况不相符,所以你必须运用临床推理。那些声称人工智能可以诊断患者的研究论文中所测试的并非这种临床推理。
你会推荐使用人工智能来生成鉴别诊断吗?达内什乔:我不会为了使用人工智能而使用它。我需要有一个具体的理由,认为它会对我有帮助。例如,如果我正在撰写一份科研基金申请,想要对我自己的一篇研究论文进行总结,我可能会让它写一个初稿,我可以进行编辑,因为我对自己的研究足够了解,能够验证其正确性。但我不会用它来为我的患者制定鉴别诊断。
对于那些想适应人工智能但不知道从何入手的皮肤科医生,你有什么建议?达内什乔:美国皮肤病学会(AAD)有人工智能新手训练营视频。在 AAD 年会上,AAD 会提供关于人工智能的教育课程。
如果你查看《美国皮肤病学会杂志》,会看到 AAD 的增强智能委员会撰写的继续医学教育评论,旨在教育皮肤科医生了解人工智能技术以及需要注意的事项。
几年前,这类内容还很少。但现在已经有人共同努力为皮肤科医生创建教育材料。
对于那些为人工智能而苦恼的皮肤科医生,你会说些什么?达内什乔:我看到人们在领英(LinkedIn)上发布一些我认为基于研究论文的离谱说法。他们会说,“这篇研究论文表明我们有可以治疗患者的自主人工智能代理,” 但当你阅读实际论文时,根本不是那么回事。通常,炒作与实际情况不符。
那么对于那些认为人工智能被夸大了,不值得担心的人呢?达内什乔:关于人工智能取代医生或皮肤科医生的说法确实被夸大了。但这绝对是皮肤科医生必须适应的事情。它最终会在某些方面成为实践的一部分。
来源:皮肤科主任吴博士