摘要:首先,多模态医疗训练语料缺乏类似通用领域的高质量和大规模数据,难以保证理解与生成数据的完备性。以 DeepSeek 的统一模型 Janus 为例,其训练需要海量数据支持,而医疗数据的稀缺性成为主要制约因素。
在医疗领域, 传统大模型 的应用往往面临“顾此失彼”的技术瓶颈,这一挑战主要体现在理解和生成能力的失衡上。
具体而言,当模型引入涵盖医学影像理解和生成任务的混合数据时,两种任务的性能都显著弱于使用单一数据训练的模型。这种性能失衡现象源于两个核心问题:
首先,多模态医疗训练语料缺乏类似通用领域的高质量和大规模数据,难以保证理解与生成数据的完备性。以 DeepSeek 的统一模型 Janus 为例,其训练需要海量数据支持,而医疗数据的稀缺性成为主要制约因素。
其次,更深层次的技术矛盾在于,理解任务和生成任务在空间表征模式上存在本质性冲突。传统模型架构由于缺乏有效的任务协调机制,往往将两种任务表征强行混合到同一维度,难以同时满足“双向需求 ” ,最终导致性能失衡。
为解决上述问题,浙江大学联合阿里巴巴、新加坡国立大学、香港科技大学、电子科技大学等团队,创新性地提出了基于异构知识适应的医疗大型视觉语言模型 HealthGPT。 该模型首次实现了医疗多模态在统一理解与生成任务上的协同优化。
研究团队通过两大技术创新突破了传统局限:一是提出视觉感知的层级分配方法,二是开发了任务层面的特征解耦技术。
这些创新构建了独特的“双通道”智能处理机制:一方面,通过分层感知实现多尺度特征提取,另一方面,通过特征解耦为不同任务配备独立的影像分析和生成模块,从而动态调取不同任务模式需要的知识。
其不仅能够统一处理医疗视觉理解与生成任务——既能精准解读医学影像,也能生成专业级的医学影像,还显著提升了多模态任务的性能和效率,最终实现 CT 到核磁共振成像的模态转换或从症状到 X 光影像生成等多种模态任务。
这种方法通过创新的高效参数微调、与之适配的层级视觉感知以及多阶段训练策略,实现了“四两拨千斤”的效果—— 只需少量参数和数据,就能让预训练语言模型在医疗场景中逐步掌握影像解读与生成能力,且尽可能忽略数据配比等传统架构面临的关键瓶颈。
该论文通讯作者、浙江大学 张文桥 研究员对 DeepTech 解释说道:“这相当于在原有医疗 AI 体系架构之外,用轻量方式构建了一个完整的辅助空间,为智慧医疗的创新发展开辟了更多可能性。”
图丨张文桥(来源:张文桥)
相关论文以《HealthGPT:一种通过异构知识适应实现理解与生成统一的医学大型视觉语言模型》(HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation)为题发表在预印本网站 arXiv 上 [1]。目前,论文已被国际人工智能顶级会议 ICML 2025(Spotlight ) 接受。
浙江大学博士生林天卫是第一作者,浙江大学百人计划研究员 张文桥 担任通讯作者。
图丨相关论文(来源: arXiv )
HealthGPT 在 7 种模态均取得最佳性能,且参数规模相对较小,最小版本仅为 38 亿参数量。此外,在 OmniMedVQA 基准测试中, 更大参数版本如 HealthGPT-L14 的平均准确率达到了 74.4%,显著超越其他模型。
其中,38 亿参数的较小版本以 68.5 分的准确率超越此前 70 亿参数的医疗专业模型(50 分),并优于通用领域的统一理解生成模型;而 140 亿参数的更大版本进一步提升至 74.4 分,较此前最优模型提升近 1.5 倍,充分验证了其在理解任务上的强大能力。
表丨OmniMedVQA 基准性能比较(来源: arXiv )
在医疗视觉生成任务(如模态转化)上,HealthGPT 相比传统方法也大幅提升。张文桥指出,该模型最关键的突破在于统一理解与生成能力——即便在两者任务目标相悖的情况下,模型性能仍优于传统模型。
优越性能的背后,是研究团队不断地探索和试错。在研究初期,他们尝试类似 Unified-IO 和 Janus 的思路,通过收集大量数据进行“暴力”统一训练,但效果并不理想。
随后,他们转向高效参数微调,将理解与生成任务的知识通过创新的异质 LoRA(Low-Rank Adaptation)形式存储在独立插件中,避免传统架构在理解与生成任务间的冲突。
与传统 LoRA(仅冻结原模型参数并训练旁路模块)不同,异质 LoRA 为理解和生成任务分别分配两组专家模块,每组专注于单一任务类型,从而避免不同表征模式冲突。
图丨HealthGPT 支持医疗多模态理解与生成,在多种任务中均超越了最先进的统一视觉模型和特定于医疗的模型(来源: arXiv )
此外,针对同类任务(如不同理解任务),该团队引入混合专家机制(MoE,Mixture of Experts),让多个专家共享知识以提升性能,生成任务同理。
但将单一 LoRA 视为专家的 MOE-LoRA 架构存在训练成本高和推理延迟的问题,因此他们从矩阵乘法可逆性出发,在架构上优化 H-LoRA,大幅提升了训练和推理速度。H-LoRA 不仅适用于医疗领域,也可用于通用多模态架构,在显著减少训练延迟的基础上进一步提升性能。
数据收集同样是关键挑战。研究团队在避免依赖海量数据的前提下,需确保理解和生成任务内各模态数据及指令类型的平衡,以维持知识多样性和指令跟随能力。张文桥强调:“医疗生成任务数据尤为稀缺,我们需在线搜集资源并依赖医生标注,因此在数据处理上投入了大量精力。”
分层视觉感知机制在适应医疗场景复杂任务中发挥了核心作用。该机制基于前人研究——浅层网络特征更具体,深层特征更抽象。因此,团队设计理解任务侧重高层语义(抽象特征),而生成任务保留底层细节(具象特征),从而针对性保留医学影像的特征粒度。
不过,现有机制虽有效,团队仍希望探索抽象与具象特征的互补性,而非完全割裂。例如,尝试用抽象特征辅助生成,或利用具象特征增强理解。未来他们还计划引入特征融合机制,结合两者以进一步提升任务性能。
图丨HealthGPT 架构融合了分层视觉感知与 H-LoRA 技术,通过特定任务的硬路由器选择视觉特征及 H-LoRA 插件,最终以自回归方式生成输出结果(来源: arXiv )
HealthGPT 模型在高效训练与迭代、轻量化部署和多模态医疗影像等场景具有应用潜力。 一方面,HealthGPT 模型支持高效训练(H-LoRA),医院数据持续更新时,基于模型的参数规模小,可快速迭代模型;另一方面,基于模型轻量级(参数规模小)特性,可部署在端侧设备(如手机)。
在多模态医疗影像支持方面,医生端可用于辅助诊断、查询知识;患者端则能够进行基础疾病咨询,减少就医成本。据介绍,目前该团队已与浙江大学医学院附属第二医院、浙江大学邵逸夫医院洽谈合作,计划在医生端和患者端部署模型,实现实际医疗应用。
此外,由于该模型具备多模态理解与生成能力,研究团队目前希望先应用于医疗影像领域(如 CT 和核磁共振成像),协助医生阅片。与此同时,他们也正在探索该模型是否可扩展至罕见病诊断,并与浙江大学医学院附属第二医院等机构合作,开展初步尝试。
在未来的研究中,该团队计划在以下两方面继续探索:
第一,开发更大规模的 HealthGPT 模型。现有模型参数为 38 亿和 140 亿,他们打算继续探索更强大的统一架构和参数扩展方法,以提升模型性能。
第二,研究医疗 Agent 系统,推动大小模型协同。正如 OpenAI 的 CEO 山姆奥特曼所说,模型协作是未来趋势。实际上,许多疾病无需大模型即可解决,也就是说模型间能够互补。
张文桥表示:“我们计划将单一模型升级为 Health Agent,由不同角色(如医生、患者)参与数据更新和参数优化,构建更完善的智能体级别的模型,这有望帮助医疗人员和患者提供更高质量的医疗服务。”
来源:东窗史谈一点号