摘要:2025 年 10 月 4—7 日,第 33 届欧洲消化疾病周(UEGW)在德国柏林召开。作为全球消化病学领域的顶级盛会,UEGW 始终是国际专家学者展示最新研究成果、交流前沿学术进展的核心平台。本次大会上,四川大学华西医院消化内镜医工研究室胡兵教授团队的 3
2025 年 10 月 4—7 日,第 33 届欧洲消化疾病周(UEGW)在德国柏林召开。作为全球消化病学领域的顶级盛会,UEGW 始终是国际专家学者展示最新研究成果、交流前沿学术进展的核心平台。本次大会上,四川大学华西医院消化内镜医工研究室胡兵教授团队的 3 项研究成果成功入选口头报告与壁报交流项目,内容涵盖临床术式创新及医学智能体应用,集中展现了华西消化内镜医工领域“临床与科研并重”的最新实践成果。
为让更多读者深入了解研究价值,《中国医学论坛报》特别邀请胡兵教授团队对上述成果进行详细解读。
胡兵教授团队温萍华及周诺亚博士UEGW2025现场合照
PART.01
口头报告
大语言模型在胃肠病学文献解读中的能力评估
摘要号:OP100
作者:温萍华,姜志杰,胡兵
温萍华博士在UEGW2025现场作摘要口头发言
随着医学文献数量呈爆发式增长,临床医生如何在繁重工作中高效获取科研信息,已成为亟待解决的现实挑战。尽管大语言模型在医疗问答、辅助诊断等领域已初步展现潜力,但其在长文本、多类型医学文献解读中的系统性表现仍缺乏严谨评估——尤其是在指令执行准确性、内容完整性与可靠性等核心维度。此前因缺乏统一的可靠评价体系,大语言模型解读文献的性能优劣无法科学判定,严重制约了其在临床科研中的实际应用。 针对这一空白,胡兵教授团队首次构建了一套“大语言模型医学文献解读性能评价体系”,并基于该体系对 4 款主流大语言模型开展系统评估与横向对比,具体如下。
评估对象
ChatGPT-4o、Claude-3.5 Sonnet、豆包-Pro(原“Doubao-pro”)、DeepSeek-V3(2025 年 4 月 2 日版本)。
测试文献集
覆盖原始性研究、病例报告、综述、社论、指南 5 大类常见文献,内容聚焦人工智能、消化内镜、胃肠道肿瘤等消化领域前沿热点。
评估规模
完成 625 次独立评估,由 5 位具备博士学位且接受过系统科研培训的胃肠病学研究人员开展“独立盲评”。
评价维度
包含文献类型识别准确性、解读格式规范性、内容完整性、简洁性、可靠性 5 大核心指标。
评估结果
1. 格式与识别表现:ChatGPT-4o 与 DeepSeek-V3 在 “文献类型识别准确性”“解读格式规范性” 两项指标中得分最高,适配结构化文献解读需求;
2. 简洁性表现:Claude-3.5 Sonnet 在解读简洁性上优势显著,更适合快速获取核心信息的场景;
3. 可靠性表现:豆包-Pro 在可靠性维度表现完美,全程无“幻觉内容”生成,满足高可信度需求。
研究价值
该研究表明,大语言模型是“强大但不完美”的工具,临床与科研选择须结合具体任务场景——需要高精度、结构化解读可选择ChatGPT-4o/DeepSeek-V3,追求简洁性可选择 Claude-3.5 Sonnet,要求可靠性可选择豆包-Pro。这项研究不仅为临床医生、科研人员提供了“基于证据的模型选择依据”,也为大语言模型在医学领域的可靠应用奠定了基础,同时为胃肠病学领域高效推进科研工作开辟了新路径。
延伸成果:医学科研智能体——睿宾 Agent-“论界 Schola”
针对通用大模型的上述短板,胡兵教授团队联合上海润达医疗科技股份有限公司、华为技术有限公司、成都智算中心,共同研发了专为医务人员设计的医学科研智能体——睿宾 Agent-“论界 Schola”板块,可有效填补通用大模型在医学科研场景中的应用空白。
该智能体具有两大核心优势:
1.功能全面性:整合文献检索、文献解读、综述初稿撰写、研究进展总结、临床问题解答等功能,覆盖医学科研全流程;
2.操作便捷性:无需复杂设置,为医务人员提供“高效、便捷的一站式科研服务”。
后续补充研究
后续研究显示,除社论类文献解读表现稍逊外,睿宾 Agent 在“格式准确性”“指令执行精确度”“解读可靠性”“解读完整性” 4 项指标上,均优于GPT-4o、Claude 3.7 Sonnet、DeepSeek V3、豆包-Pro 4 款主流大模型。
图为睿宾 Agent-“论界 Schola”板块文献解读界面
胃间质瘤内镜全层切除术后带蒂瓣闭合创面的创新实践
摘要号:VC7
作者:温萍华,牟一,胡兵
温萍华博士在UEGW2025现场作摘要口头发言
本研究报告了 1 例“胃间质瘤内镜全层切除术后,采用带蒂瓣移植术辅助创面愈合”的创新临床案例,为内镜术后大创面闭合提供了新方案。
案例详情
患者男性,52 岁,胃窦部发现 3.0 cm 黏膜下肿物,经胃镜、超声内镜、CT 联合检查,初步诊断为胃间质瘤。
治疗方案
胡兵教授团队先对肿物行“内镜全层切除术”,后采用“荷包缝合 + 带蒂瓣移植术”联合闭合较大创面。
治疗效果
全程缝合耗时仅 16 min,患者术后恢复顺利,于术后 5 天出院,4 个月后复查无异常。
技术创新点
该术式首次将 “带蒂瓣移植技术” 与 “荷包缝合技术” 联合应用于内镜全层切除术后大创面闭合,实现 “生物促愈合 + 机械闭合” 双重保障。其核心优势在于:操作简便、手术时间短、无需特殊设备、适用性广泛,为胃间质瘤微创治疗提供了可靠新选择。胡兵教授表示,该技术有望成为内镜全层切除术后创面闭合的可选方案之一。
PART.02
壁报交流
不同大模型在胃肠病学开放式问答中的能力评估
摘要号:PP1118
作者:罗奇,周诺亚,胡兵等
周诺亚博士在UEGW2025现场作摘要壁报交流
针对大语言模型在特定医学领域(如胃肠病学)表现的不确定性,为明确其临床应用潜力,本研究选取 ChatGPT-4 及两款中文大语言模型(模型 A、模型 B),系统对比三者在回答胃肠病学开放式问题时的综合表现。
研究设计
1.技术支撑:通过“检索增强生成技术”,将团队自有 “消化疾病知识库” 嵌入模型,提升回答专业性。
2.测试集构建:设计包含 200 个临床常见患者问题的测试集,每个问题以 3 种不同表述方式呈现,且重复查询 5 次,确保数据多样性与可靠性。
3.评价维度:从准确性、易读性、回复长度、稳定性4个维度开展量化评估。
评估结果
研究结论与展望
本研究初步表明,这 3 款大语言模型在准确回答胃肠病学问题方面具备一定潜力,但各有侧重——模型 B 擅长准确性,ChatGPT-4 与模型 A 擅长可读性与简洁性。未来须进一步优化模型的“语义理解能力” 与 “应答稳定性”,才能推动其在临床实践中可靠应用。
延伸成果:消化疾病 AI 健康管理平台——睿宾 Agent-“医知 Dr”
基于上述研究结论,胡兵团队针对通用大模型在医学领域的局限性,进一步挖掘大语言模型的临床专业知识储备与转化潜力,主导研发了专注于消化系统疾病的AI 健康管理平台——睿宾 Agent-“医知 Dr”板块。
该平台的核心竞争力体现在三方面:
1. 知识权威性:依托胡兵教授团队构建的 “专家知识库” 与 “结构化医学知识图谱”,确保信息严谨性;
2. 技术先进性:运用自然语言处理、大数据分析等前沿技术,提升服务精准度;
3. 功能实用性:集成健康知识普及、智能医学问答、报告解读、健康档案建立、疾病全程管理等核心功能,为患者提供 “权威、易懂且可交互的健康咨询服务”。
其应用价值在于:有效缓解医患信息不对称问题,既提升患者对疾病的认知水平,也增强患者 “及时就诊” 与 “按时复查” 的依从性,助力消化疾病全程管理。
图为睿宾Agent-“医知Dr”板块使用页面
团队简介
胡兵教授团队是国内外消化道早癌诊治领域的先行者和领军者。团队建立了消化道早癌数据库和生物样本库,围绕消化道早癌及胆胰疾病内镜微创诊疗与慢病管理、消化内镜人工智能及内镜新器械研发等,致力于医工交叉与临床转化研究,推动前沿技术在消化疾病早诊早治与精准诊疗中的应用。 团队承担国家级科研项目10余项;发表SCI论文200余篇;牵头制定多部全国专家共识;创新研发10余项国际首创的内镜技术,并研发多款创新产品,其中“食管早癌人工智能辅助诊断系统”获国家工信部人工智能医疗器械创新任务揭榜及优胜表彰,受邀参加国家“十三五”科技创新成就展。团队联合华为、润达医疗、成都智算中心共同研发的医学智能体“睿兵Agent”已于2025年3月1日正式发布,助力智慧医疗。团队成员在国内早癌比赛中屡获大奖,其早癌科普传播在国内处于领先水平。
团队带领的四川大学华西医院消化内镜中心已成为国际一流的内镜医师培训基地,吸引近百位来自美国、英国、德国、加拿大等国家和地区的医师前来进修学习。这些医师来自梅奥诊所、约翰斯·霍普金斯医院等全球知名医疗机构。通过与欧美及“一带一路”国家的技术交流与合作,四川大学华西医院的内镜水平已跻身国际前沿,成为世界内镜创新技术的新高地。
另外,团队利用睿宾 Agent-“论界 Schola” 解读文献的强大功能,在公众号每天与大家分享最新科技前沿与深度文献洞见,让文献解读从 “专业壁垒” 变成可触达的 “知识养分”。
四川大学华西医院胡兵教授团队来稿
来源:壹生