摘要:过去5年,人工智能 (AI) 在医疗保健领域的应用显著增长。报告称,医疗AI模型在许多专业领域和任务中与临床医生表现一样甚至更好,但是,其中许多模型仅使用替代终点进行了回顾性检测,而没有在真实世界的临床环境中验证。在美国食品和药物管理局批准的近300种人工智能
过去5年,人工智能 (AI) 在医疗保健领域的应用显著增长。报告称,医疗AI模型在许多专业领域和任务中与临床医生表现一样甚至更好,但是,其中许多模型仅使用替代终点进行了回顾性检测,而没有在真实世界的临床环境中验证。在美国食品和药物管理局批准的近300种人工智能医疗设备中,只有少数经过了前瞻性随机对照试验 (RCT) 的评估。
人工智能系统缺乏真实世界的评估会导致很大的不确定性,对患者和临床医生造成风险。由于不正确或不相关的警报可导致“巨大的警报疲劳负担”,在临床环境中采用人工智能系统的难度可能会进一步阻碍重要结果方面的潜在益处。此外,如果没有真实世界的评估,人工智能模型的偏差可能不被发现,无意中造成健康结果的差异。
为了更清楚地了解医疗保健领域的人工智能前景,近期发表在Lancet Digit Health的一篇范围性综述,评估了临床实践中使用的人工智能算法的随机对照试验的状态,探讨了人工智能在改善护理管理、患者行为和症状以及临床决策效率方面的潜力,以帮助我们更好地理解人工智能的临床相关性和准备情况,并指导这个快速发展领域的未来研究。
01
方法
检索策略和纳入标准
检索了PubMed、SCOPUS、CENTRAL和国际临床试验注册平台,查找了2018 年1月1日至2023年11月14日期间发表的相关研究。纳入标准特定于满足以下条件的随机对照试验:干预纳入了实质性的人工智能组件,将其定义为非线性计算模型(即机器学习组件,包括但不限于决策树、神经网络等);将干预措施融入临床实践,从而影响临床团队对患者的健康管理;结果以全文形式发表在同行评审的英文期刊上。
数据分析
为了确保检索结果的质量,使用Covidence Review软件筛选出版物标题和摘要。提取了研究层面的信息,包括研究地点、参与者特征、临床任务、主要终点、时间效率终点、比较器和结果,以及所用人工智能的类型和来源。此外,根据主要终点(诊断产量或性能、临床决策、患者行为和症状以及护理管理)、临床领域或专业以及人工智能使用的数据模式对研究进行了分类。
02
结果
纳入试验总体情况
文献检索筛选后,共纳入总共86项随机对照试验(RCT)。37项(43%)与胃肠病学有关,11项(13%)与放射学有关,5项(6%)与外科有关,5项(6%)与心脏病学有关。
86 项随机对照试验中有79 项 (92%) 在单一国家进行,其中美国进行的试验最多 (27项 [31%]),其次是中国 (26项 [30%])。在美国进行的试验分布在各个专业,而在中国进行的26项试验中,有21项 (81%) 主要与胃肠病学相关。在多个国家进行的试验主要涉及欧洲国家(7个国家中的6个[86%])。
人工智能干预对护理管理质量的影响
18项随机对照试验评估了人工智能干预措施对护理管理质量指标的影响,为人工智能在临床实践中的使用提供了以结果为导向的观点。例如,用于胰岛素剂量和低血压监测的人工智能系统已被证明可以分别改善患者血糖和血压控制到目标范围所花费的平均时间;立即向患者提供人工智能生成的糖尿病视网膜病变风险预测可以提高转诊依从性;伤害感受监测系统能够降低患者术后疼痛评分。在81项试验中,有65项 (80%) 报告其主要终点有显著改善,其中46项 (71%) 试验指出,人工智能辅助的临床主要终点有所改善;16项 (25%) 试验指出,人工智能系统常规可以改善护理。这些试验凸显了人工智能干预对患者体验产生直接影响的潜力。
人工智能系统影响临床决策能力的潜力
7项试验还衡量了人工智能系统影响临床决策的能力。例如,人工智能对癌症患者死亡率预测的可用性增加了肿瘤科医生和患者之间的对话数量;相比之下,采用人工智能系统来识别中风高风险的房颤患者并没有增加死亡率。这些研究探讨了人工智能预测为临床医生协作判断提供信息的潜力。
人工智能和临床医生的非劣效性比较
在采用非劣效性设计的5项试验中,3项确定了独立人工智能系统和临床医生之间的非劣效性,两项确定了辅助和非辅助临床医生之间的非劣效性。因此,86项试验中有70项 (81%)报告了其主要终点的有利结果。胃肠病学子集也观察到类似的成功率,37项试验中有28项 (76%) 报告显著改善,一项 (3%) 显示非劣效,总体成功率为78.4%。
16项主要终点结果为阴性的随机对照试验中,其中10项没有显示出受协助临床医生的改善,4项没有显示人工智能系统相比常规护理的改善,1项独立人工智能系统没有显示出优于临床医生,1项还报告称独立人工智能系统的性能明显低于临床医生。然而,这 16项试验中有8项 (50%) 报告称次要终点有显著改善。
手术时间测量
86项试验中有52项 (60%) 还报告了手术时间测量结果,但结果各不相同。约三分之一的试验 (52项中的18项 [35%]) 报告了手术时间显著缩短 (p
胃肠病学是这些结果的主要贡献者,有32项试验涉及手术时间测量。这些结果各不相同,其中两项试验(6%)指出手术时间缩短,12项试验(38%)报告手术时间增加,其余18项试验(56%)未观察到显著影响。所有5项放射学和所有3项眼科学试验均报告手术时间显著减少。在其他专业中,通常只有两项或更少的试验考虑手术时间方面。
03
讨论与展望
在这个快速发展的领域,尽管取得了有利的结果,但人工智能应用的普遍性仍然不确定。尽管此类试验为临床人工智能系统的前瞻性技术性能提供了令人信服的证据,但这些证据可能无法准确反映人工智能系统对患者护理的整体效果,试验取得统计上有利的结果不一定会转化为具有临床意义的益处。为了更好地评估AI算法在医疗保健中的真正价值,现实世界的证据必须关注有临床意义的终点(例如症状和治疗需求)以及长期结果(例如生存率)。此外,更大规模的证据将有助于更好地了解这些成果的绝对效益是否具有实质性。
在运营效率方面,不同专业的结果各不相同,提示了人工智能系统根据具体应用、环境简化或复杂化临床工作流程的潜力。鉴于这种复杂性,成功采用人工智能工具将取决于运营效率、成本效益和所需培训水平等因素以及绩效。因此,未来的研究不仅应关注临床结果,还应关注实施方面,以更全面地了解人工智能对医疗保健服务的影响。
总之,人们对在临床专业和场景应用人工智能的兴趣日益浓厚。但是,人工智能应用的真正成功最终取决于它们对目标患者群体和环境的普遍性。为了更全面地了解人工智能在医疗保健领域的真正影响和局限性,需要进行更多研究。关注多中心试验和纳入不同的终点指标,特别是与患者相关的结果至关重要。
来源:佑信医管