摘要:多模态医学图像处理通常包括图像采集与质控、核心处理、特征分析、临床落地4个部分。其中,核心处理(包括分割、融合、配准)、特征分析(包括分类、特征融合),以及临床落地都是当前学术界与工业界关注的焦点,投稿热度持续攀升。
多模态医学图像处理通常包括图像采集与质控、核心处理、特征分析、临床落地4个部分。其中,核心处理(包括分割、融合、配准)、特征分析(包括分类、特征融合),以及临床落地都是当前学术界与工业界关注的焦点,投稿热度持续攀升。
本文将结合最近的研究进展(CVPR 2025尤其多),帮大家梳理多模态医学图像处理这些方向的热点课题,以便快速找到创新点,正确设计实验流程,撰写论文的方法学部分。
由于整理的论文数目较多,共有122篇(含顶会),且附有相应代码,篇幅有限就不一一展示了,大家可自取完整合集,另外我还打包了100+医学图像数据集,各部位做好了分类,拿来即用。
核心处理 图像分割 Multimodal Information Interaction for Medical Image Segmentation
方法&创新点:
论文提出了一种名为MicFormer的新型多模态医学图像分割方法。它通过双流架构同时提取两种模态的特征,并利用Cross Transformer模块实现模态间特征的交叉查询与交互,增强特征表示。此外,引入可变形Transformer架构扩展搜索空间,有效解决了传统方法中特征融合不准确和模态间信息关联不足的问题。
图像融合 Multimodal Medical Image Fusion Network Based on Target Information Enhancement
方法&创新点:
论文提出TIEF多模态医学图像融合网络,通过多序列特征提取块获取边缘及深浅层特征,用信息熵特征选择块筛选优质特征通道,再经多头与空间注意力机制的融合块实现模态内外特征融合。同时设计含纹理、结构和显著性损失的加权组合损失函数,提升融合效果。
图像配准 Mono-Modalizing Extremely Heterogeneous Multi-Modal Medical Image Registration
方法&创新点:
论文提出 M2M-Reg 框架解决极端异质多模态医学图像配准难题:通过引入桥接图像对构建循环结构,仅用单模态相似性指导训练,规避传统多模态度量缺陷;创新 GradCyCon 正则化器借助循环映射雅可比矩阵促进微分同胚性,并支持半监督学习整合预对齐数据。
特征分析 图像分类 Split Learning of Multi-Modal Medical Image Classification
方法&创新点:
论文提出SplitFusionNet,用于多模态医学图像分类。它通过将模型分割为客户端和服务器端,实现隐私保护和高效训练。客户端处理图像和标签,服务器执行复杂计算。借助无损压缩技术,该方法在保持预测性能的同时,大幅减少了训练时间。
图像特征提取 XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training
方法&创新点:
论文提出XLIP框架,针对多模态医学图像特征提取中的挑战,引入注意力引导的掩码建模策略,通过跨模态交互提升病理特征学习能力。它结合图像-报告对比学习与掩码建模,利用疾病提示增强对未配对数据的兼容性,显著提升零样本和微调分类性能。
临床落地 Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine
方法&创新点:
论文提出MedPLIB模型,针对多模态医学图像的临床应用,具备像素级理解能力,支持视觉问答和像素级定位。采用混合专家多阶段训练策略,协调多任务学习。引入MeCoVQA数据集,提升模型在复杂医学图像问答和像素级定位任务上的性能,尤其在零样本学习中表现出色。
来源:科学番薯