面向多源视觉的语义传输方法研究

B站影视 港台电影 2025-09-12 11:53 2

摘要:随着机器感知、边缘计算与人工智能技术的快速发展,智能交通、低空无人系统等典型场景中对多传感视觉信息的高效传输与处理提出了更高要求。语义通信作为通信与智能融合的传输新范式,为多源视觉信息的高效传输提供了新思路。在梳理多源视觉信息处理面临的模态对齐难、融合效率低下

10

【语义通信与语义信息论

基础理论与关键技术】专题

21

(1.北京邮电大学网络与交换技术国家重点实验室,北京 100876;

2.中国矿业大学(北京),北京 100083)

【摘 要】随着机器感知、边缘计算与人工智能技术的快速发展,智能交通、低空无人系统等典型场景中对多传感视觉信息的高效传输与处理提出了更高要求。语义通信作为通信与智能融合的传输新范式,为多源视觉信息的高效传输提供了新思路。在梳理多源视觉信息处理面临的模态对齐难、融合效率低下、信道适应性不足等关键挑战的基础上,文章分析了现有多源视觉信息处理及传输的研究现状与典型方法。同时,针对智能车联网与无人机平台两个典型应用场景,文章设计了面向多源视觉的语义传输架构。针对RGB与红外等图像高效传输与融合处理需求,设计了一种RGB-红外图像融合的语义传输方案,结合RGB-红外语义特征融合策略,实现对多源图像语义信息的高效提取与自适应传输。最后,基于VTUAV数据集开展实验验证,仿真结果表明所提方法在低信噪比条件下仍具备较强的重构质量与任务保持能力,相较传统语法通信方案,显著提升了图像重建质量与跟踪准确率。

【关键词】多源视觉;语义通信;图像传输

doi:10.3969/j.issn.1006-1010.20250525-0002

中图分类号:TN911.21 文献标志码:A

文章编号:1006-1010(2025)07-0077-08

引用格式:王佳琪,郑思源,刘宜明. 面向多源视觉的语义传输方法研究[J]. 移动通信, 2025,49(7): 77-84.

WANG Jiaqi, ZHENG Siyuan, LIU Yiming. Research on Semantic Transmission Methods for Multi-Source Vision[J]. Mobile Communications, 2025,49(7): 77-84.

0 引言

随着人工智能(AI, Artificial Intelligence)、物联网(IoT, Internet of Things)以及智能感知(Intelligent Perception)技术的快速发展,无人车(AVs, Autonomous Vehicles)、无人机(UAVs, Unmanned Aerial Vehicles)以及各类传感器等智能终端已在交通监控、环境感知、公共安全、工业巡检等典型场景中得到广泛应用。在智能车联网、智能工业互联网和智慧城市等应用场景中,各类机器视觉感知数据对未来通信系统提出了更严苛的传输要求。如何在保证智能任务性能的前提下高效完成机器感知数据传输与处理,已成为亟待解决的重要问题。

面向感知任务,单一模态感知(如仅依赖可见光图像)易受光照不足、遮挡等因素影响,难以满足高鲁棒性、高精度与实时性的需求。多源视觉融合技术通过引入红外图像、深度图等多类数据,能有效弥补单一模态感知在复杂条件下的局限性,增强目标检测、跟踪等下游任务的执行效果。多源视觉感知通常融合可见光相机(RGB)、红外热成像(Thermal Imaging)、雷达(Radar)及深度相机(Depth Camera)等多种传感器,以增强机器感知的鲁棒性和智能任务处理精度。以RGB相机为例,其在良好照明条件下可提供高分辨率和丰富的颜色信息,但在夜间、雾霾等低可见度环境中性能大幅下降;相较之下,热成像可在黑暗中检测热源目标,但存在分辨率低、成像模糊等缺陷;雷达传感器具备强穿透性与全天候工作能力,能够稳定获取目标的距离和速度信息,但在空间分辨率与图像细节方面表现较弱;深度相机则可提供三维空间结构信息,有助于精确感知目标的位置与轮廓,然而其在远距离测量及强光环境下的感知能力仍有限。多源感知数据的有效融合可充分发挥各模态互补优势,有助于显著提升目标检测、跟踪等任务的准确性与可靠性。

然而,传统语法通信方式通常采用信源-信道分离编码的方式,侧重于比特级准确还原,在带宽受限和动态复杂信道环境下,往往难以高效承载海量的多源视觉数据传输。因此,亟需探索兼顾通信效率与任务完成度的新型通信方式,以充分发挥多源视觉数据的协同优势。语义通信(SC, Semantic Communication)作为一种新型通信范式,利用深度学习(DL, Deep Learning)技术提取和传输数据的简洁含义,为多源图像数据传输及处理提供了新的解决思路。在面向任务的场景中,语义通信能够显著降低传输负载,同时增强对信道噪声和传输误码的鲁棒性,确保关键语义信息的准确传递。面向多源图像的语义通信技术,能够在不同类型的图像间完成语义提取、对齐与融合,在不牺牲下游任务处理性能的前提下实现语义高效传输,成为当前研究的热点方向。Lyu等人[1]基于门控深度联合信源信道编码的语义通信框架,实现图像重建与分类任务的同步处理,在提升多任务通信效率的同时显著降低通信开销,并提升了无线信道条件下的传输可靠性。Huang等人[2]设计了一种图像多层次语义编码模型,其中图像的基层被完全生成并保留语义信息,而增强层则恢复精细细节。然而,上述方法主要面向单源图像数据,现实场景中多源视觉数据的异构性和大规模传输需求对语义处理和传输效率提出了更高挑战。

多源视觉语义通信(Multi-Source Visual Semantic Communication)可融合来自多种类型(如可见光、红外、雷达等)的图像信息,利用深度学习等方法提取语义特征并进行处理、传输及融合,在复杂环境下具备更强的抗干扰能力与下游任务处理能力。本文围绕多源视觉语义传输方案展开研究,首先讨论多源视觉信息处理中的关键难点与技术优势,然后围绕两种典型场景介绍多源视觉语义传输应用方案与系统架构;本文还提出一种RGB-红外图像融合的语义传输方法,并通过设计仿真实验验证其有效性,最后总结全文工作并展望未来研究方向。

1 多源视觉信息处理的关键挑战

以智能车联网与无人机平台两个典型应用场景为例,当前多源视觉信息处理主要包含两种模式,如图1所示,边缘设备(如无人车、无人机上的本地计算单元)本地检测与边缘设备-云侧服务器协同处理。前者依赖边缘设备自主完成感知任务,无需与云端服务器进行信息交互。这种方式在通信资源受限或安全性要求高的场景中具有一定优势,但受限于设备的计算能力和能耗约束,难以应对海量、多模态数据的复杂处理需求。边缘设备-云侧服务器协同处理则采用边缘设备与云端服务器,如基站及大型服务器协同工作,将部分或全部数据上传至服务器进行处理,借助其强大的计算与存储资源来提升任务处理性能。尽管该方式可显著增强任务处理能力,但在实际部署中往往受到无线带宽受限、通信时延增加及链路不稳定等因素的影响,难以满足高实时性和高可靠性任务的要求。因此,在计算资源有限和通信受限的条件下,如何实现高效、可靠的多源视觉信息处理与传输面临关键挑战。

如何有效协调不同模态在信息表达能力、环境适应性与任务敏感性等方面的差异,使各模态优势得以充分发挥,是当前亟待解决的核心问题。在多源视觉语义通信系统中,语义层级的跨模态对齐、面向下游任务的语义特征提取与融合,以及面向带宽受限环境下的语义传输,成为当前多源视觉信息处理中的关键挑战与研究热点。

多模态数据对齐是多源视觉语义传输的基础,主要面临空间对齐误差、时间不同步和语义层级差异三大问题。在雷达-RGB相机融合感知中,常通过LiDAR传感器先进行配准处理,再通过变换矩阵获得雷达与相机的外参关系[3-5]。然而,在实际中,车辆震动、温度变化、机械松动等因素往往会导致外参漂移,多模态异步采样问题尤为突出。如边缘UAV系统中红外传感器低帧率、RGB相机高帧率的差异,在高速运动场景下导致严重感知偏差,需实现自适应的实时在线校准与动态时间同步机制。空间对齐误差主要源于成像机制、焦距、视角和分辨率差异。尽管传统研究通常默认不同模态的图像对之间已经完成了几何对齐[6],直接进行特征融合,但这种“弱对齐”假设在实际应用中并不成立,特别是在无人机航拍等动态场景中,物体的姿态、位置、尺度和角度偏差相互耦合,增加对齐难度。Yuan等[8]提出Translation-Scale-Rotation Alignment(TSRA)模块,通过预测几何偏差实现显式校准,在RGB-T检测中效果优异。语义对齐方法利用对比学习和联合特征嵌入提升跨模态语义一致性,Wang等[9]的Semantics-guided Asymmetric Correlation Network(SACNet)引入非对称注意力机制,有效缓解未对齐RGB-T图像的语义错位。毫米波雷达数据稀疏且分辨率与视觉模态差异显著,直接融合易引入语义噪声。Wu等[10]提出MVFusion,通过语义对齐的雷达编码器和引导式Transformer模块实现图像与雷达特征的全局交互,在3D检测中显著提升性能。深度图受限于传感器精度和遮挡易出现“深度空洞”,Li等[11]的RadarCam-Depth方法融合稀疏雷达点云与单目图,采用全局尺度对齐和局部细化生成高精度深度图。尽管现有方法缓解了空间、时间和语义差异,但多数依赖高精度标注和严格同步,难适应异步采集或低精度感知,且部分对齐机制过度依赖主导模态,模态退化时易引发语义偏移,未来需构建鲁棒、高效、低依赖的数据对齐机制。在多源视觉信息处理领域,语义特征高效提取与融合机制始终是研究的核心难题。传统的模态融合策略主要包括早期融合(Early Fusion)、中期融合(Intermediate Fusion)与晚期融合(Late Fusion)。早期融合实现简单但易忽视模态间差异;晚期融合保留模态独立性但难充分挖掘深层关联;中期融合平衡效率与表达能力,但面对高维、强异构、多源数据时仍易产生冗余和冲突,难满足复杂下游任务需求[12]。为缓解冗余与对齐偏差,动态融合机制引入注意力或门控结构,根据输入特征动态调节模态权重,实现更细粒度融合。例如Dynamic Multimodal Fusion(DynMM)设计任务引导门控网络,依据上下文语义调节模态贡献,并通过资源感知正则化提升效率与可部署性[13]。动态融合表现优异但结构复杂、计算开销大,限制边缘或实时场景应用,同时依赖大规模多样训练数据,易产生模态偏倚。而Transformer结构凭借自注意力机制,在多模态建模中展现强大潜力,MulT和TokenFusion等[14]通过跨模态注意力捕获长距离依赖,实现结构级语义融合,提升融合精度。尽管Transformer模型在建模能力与融合精度方面表现优异,但其高昂的训练开销、对算力资源的强依赖以及可解释性欠佳,仍是其在实际部署中需克服的关键瓶颈。

(3)面向带宽受限环境下的语义传输

多源视觉语义承载模型常部署于边缘设备,受内存、带宽及算力限制,但需满足低延迟高性能要求。以深度联合信源信道编码(Deep JSCC, Deep Joint Source-Channel Coding)为代表[15]的神经编码器-解码器架构通过端到端学习,在低信噪比环境下显著增强下游任务鲁棒性。Guo等[16]提出层次感知与信道自适应的语义通信方法,融合低分辨率高光谱图和高分辨率RGB图的深浅层特征,在显著降低带宽消耗的同时保持较好的图像重建质量。数字式深度联合信源信道编码(D²-JSCC, Digital Deep Joint Source-Channel Coding)[17]通过联合优化数字信源信道编码,引入贝叶斯建模与Lipschitz假设,提出两步算法控制信源-信道比率,在固定信噪比下有效最小化端到端失真,提升图像传输性能。针对边缘部署,Jia等[18]设计轻量级JSCC模型(基于DeLighT的轻量级Transformer变体),有效减少模型参数和运行时间,保持通信可靠性。语义通信技术正逐步朝着更轻量、更自适应、更任务导向的方向演进,成为实现高效智能传输的关键支撑。

2 多源视觉的语义传输架构

多源视觉数据的高效处理与传输已成为智能车联网与无人机平台中的关键研究方向。例如,自动驾驶中常融合毫米波雷达、激光雷达、红外热成像与RGB图像,以提升夜间、雨雾等复杂环境下的感知能力;而无人机平台则常搭载轻量化的RGB相机、红外传感器与微型雷达,以在目标检测、区域监控等下游任务中兼顾任务处理性能与算力、带宽等资源约束。为应对上述场景中多源视觉数据高效处理与传输的需求,本文结合实际任务特点,设计了两种典型的语义通信系统架构,分别对应智能驾驶目标检测与低空无人机目标跟踪应用,为后续多源视觉语义传输方案的提出与验证奠定基础。

2.1 面向无人车的典型场景

随着自动驾驶技术的不断演进,对车辆在行驶过程中实现更高效的信息传输与处理能力提出了更高要求。摄像头和激光雷达(LiDAR)作为智能车辆中最广泛使用的传感器,具有互补的优势,这使得它们的融合成为实现系统稳健性能和成本效益的重要手段。

图2展示了一个典型的车联网(V2X, Vehicle-to-Everything)场景中基于多源视觉信息的语义传输框架,该框架以智能车辆为感知前端,融合激光雷达(LiDAR)与RGB摄像头等多种传感器,实现复杂交通环境下的多模态感知与高效语义通信。系统整体由车载前端的感知与编码、无线信道下的语义压缩与传输、以及边缘服务器端的解码与融合三大核心模块组成,并辅以车-路之间的协同感知机制。

在车载感知与编码阶段,车辆通过激光雷达采集稀疏而高精度的三维几何信息,形成点云数据,同时利用RGB摄像头获取细腻且密集的纹理和颜色信息。点云数据经由如VoxelNet、PointPillars等点云编码器提取为结构化的鸟瞰图(BEV, Bird’s Eye View)特征,增强空间表达能力;而RGB图像则通过轻量级卷积神经网络(CNN, Convolutional Neural Network)主干网络(如MobileNet或ResNet变体)提取高维语义特征。这些特征保留了环境中结构、纹理、语义等关键信息,是后续语义传输的核心内容。

为应对车载通信网络中常见的带宽受限与信道不稳定问题,上述多模态特征将输入至语义压缩模块进行联合编码。该模块采用端到端学习的语义编译码模型(如Deep JSCC或D²-JSCC),在压缩的同时实现对信源和信道的协同优化,并最大程度保留对下游任务有意义的语义信息。语义特征通过有噪信道,如加性高斯白噪声信道(AWGN, Additive White Gaussian Noise)或实际V2X信道模型,传输至边缘服务器或道路侧单元(RSU, Road Side Unit)或蜂窝基站。

在边缘服务器端,接收到的语义特征首先经语义解码器解码特征,随后在共享表示空间中进行融合,常用策略包括基于注意力机制的模态对齐、多尺度语义融合、或引入Transformer结构以建模跨模态间的长程依赖关系与上下文关联性。融合后的语义表示被输入至任务头(如检测器、分割网络)中,用于完成目标检测、物体识别等关键任务,支撑车辆在动态交通场景中的决策与控制。

此外,智能车辆与道路基础设施之间通过V2X通信协议建立低延迟连接,实现信息共享与协同处理。车辆可实时向路侧单元RSU发送或接收环境感知数据(如障碍物检测结果、交通信号状态、突发路况等),通过局部-全局信息融合,实现更准确的语义信息提取与表达,在动态路况和复杂环境中提高语义数据的处理效率与传输稳定性,降低通信延迟与信息丢失风险。

2.2 面向无人机的典型场景

图3展示了一个面向无人机平台的多源视觉融合语义传输框架。无人机作为前端感知与通信节点,通常搭载轻量级RGB相机与红外热成像(Thermal)传感器,用于在复杂、高空或弱光环境下进行目标检测与跟踪任务。与地面车辆不同,无人机平台受限于机体尺寸、负载重量以及能源供给,因而在多源视觉数据的处理与传输过程中,必须兼顾计算资源消耗、通信带宽利用与任务性能要求。

前端的感知与编码阶段承担着提取并压缩多源视觉信息的关键任务。RGB相机捕获场景中的丰富纹理和颜色信息,而红外传感器则在夜间及低能见度环境中提供可靠的热成像数据,两者天然互补,确保复杂环境下的稳定感知性能。鉴于无人机平台算力和能耗受限,本系统设计采用分模态轻量语义编码策略:机载端分别部署两个小型语义编码网络,对RGB和红外图像进行独立压缩,通常采用轻量卷积网络或剪枝后的Transformer结构,兼顾特征提取效率与高层语义表达能力。编码后的语义特征通过无线通信链路传输至地面接收端。为应对带宽限制和信道不稳定的挑战,方案引入语义信源信道联合编码方法,显著提升语义特征传输的抗噪性与压缩效率,保证了传输过程中的语义信息完整性与鲁棒性。地面端接收的RGB与红外语义特征经过解码并映射至共享表示空间,并通过跨模态注意力机制、显著性引导融合策略或基于Transformer的语义对齐模块,实现两种模态间的深度融合与协同,充分挖掘多模态信息的互补优势。融合后的语义特征进一步输入目标跟踪模块,如Siamese架构或Transformer-based tracker,执行空中场景下的实时目标定位、轨迹预测或目标跟踪。面向无人机的多源视觉语义传输架构在保证机载资源约束条件下,实现了多模态语义信息的高效传输与融合,在动态信道和复杂环境下依然保持语义内容的准确还原,保障了目标识别与跟踪任务的连续性与可靠性,展现出语义通信在空中平台中的广阔应用前景。

3 一种面向无人机平台的多源视觉语义传输方案

3.1 案例方案

为验证 2.2 节中提出的面向无人机平台的多源视觉语义传输架构在实际场景下的有效性与适应性,本文围绕复杂环境下的目标感知与跟踪任务,设计了一套面向多源视觉的语义传输方案。在该方案中,语义编解码采用基于深度神经网络的Deep JSCC[15]架构,实现图像到信道符号的端到端映射,整体包括编码器、信道模拟器与解码器三部分。编码器为五层下采样卷积网络,包含残差连接、BatchNorm与PReLU激活,并采用双分支结构分别处理RGB与TIR图像,提取特征后通过1×1卷积映射为复值信道符号并拼接传输。信道模拟采用可微分AWGN模块,支持端到端训练。解码器结构对称编码器,通过反卷积与跳跃连接逐步恢复图像,融合多层语义信息进行重建。训练目标采用MSE与感知损失联合优化,提升像素精度与语义一致性。

多源图像融合与跟踪模块引入分层融合机制,有效整合RGB与TIR图像在图像层、特征层与决策层的互补信息,整体融合过程包括三个核心阶段:图像级融合(CIF, Complementary Image Fusion)、特征级融合(DFF, Discriminative Feature Fusion)与决策级融合(ADF, Adaptive Decision Fusion)。具体而言,图像级融合阶段采用共享的ResNet-50主干网络分别对RGB与TIR图像进行基础特征提取,并通过KL散度损失强化模态间的特征一致性;特征级融合阶段引入双流特征提取器ResNet-18及ECA attention分别建模RGB与TIR图像的语义特征,通过引入通道注意机制实现判别特征融合,根据全局平均池化与两层全连接网络计算模态权重,实现自适应的加权特征组合;决策级融合阶段则通过引入自适应决策融合模块对来自判别性分支与互补性分支的响应图进行融合,融合过程中引入模态置信度估计模块(MAM, Modality Aggregation Module),利用自注意力机制动态调整不同模态在最终决策中的权重,提升模型在复杂场景(如遮挡、强光或夜间)下的适应能力。融合后的多模态特征最终输入至跟踪头进行目标位置回归,支持持续目标跟踪任务。

3.2 仿真实验及结果

本研究选用VTUAV多模态无人机数据集,涵盖城市、森林、水域等多场景下的RGB与TIR图像,适用于多源图像重建与目标跟踪任务。从中筛选出公路汽车类样本,RGB与TIR图像各7 846张,共计15 692对图像,覆盖强光、弱光、遮挡及复杂背景等典型场景,保证模型适应性与鲁棒性。

基于PyTorch框架,运行于搭载AMD Ryzen7 5800H与NVIDIA RTX 3070的平台,利用GPU加速模型训练与推理。实验及对比方案包括:RGB-红外多源图像语义传输方案、RGB图像语义传输方案、RGB-红外多源图像语法传输方案。

实验中分别在多种SNR设置下开展所提方案及对比方案的图像传输与重建测试,并结合多模态融合跟踪模块在VTUAV中不同场景下进行对比评估,重点验证RGB-红外多源图像语义传输方案对低信噪环境下的适应性以及融合模块对跟踪性能的提升效果。不同传输方案在分别SNR为-6 dB、0 dB、6 dB、12 dB下的传输结果如表1所示

在融合跟踪性能评估中,采用最大成功率(MSR, Maximum Success Rate)及帧率(FPS, Frames Per Second)对跟踪算法的性能进行全面衡量,选用测试数据第一帧作为展示跟踪效果图,如表2所示

图4展示了不同信噪比条件下三种图像重建与跟踪方案的MSR指标对比。结果显示,RGB-红外多源图像语义传输方案在全信噪比范围内均表现最优,尤其在-6 dB和0 dB等低信噪比环境下依然保持较高跟踪成功率,体现出良好的抗干扰性与鲁棒性,得益于其端到端优化与语义增强机制。相比之下,RGB-红外多源图像语法传输方案在低信噪比下表现出典型的“悬崖效应”,MSR在-6 dB至6 dB几乎为零,无法成功跟踪目标,仅在12 dB以上才有明显提升效果,反映出其分离式编码结构难以适应复杂信道环境。RGB图像语义传输方案低信噪比下表现优于RGB-红外多源图像语法传输方案,但因缺乏模态互补,整体MSR略逊于RGB-红外多源图像语义传输方案,尤其在目标不显著或背景复杂时性能受限。

RGB与红外模态的互补性增强了特征的判别能力,使模型在前向推理过程中能够更快速地聚焦于目标区域,减少冗余计算流程,从而间接提升整体推理效率和帧率表现。表3展示了不同SNR条件下三种方案在FPS指标上的对比结果,用于评估方法的运行效率与实时性。在12 dB信噪比条件下,RGB-红外多源图像语义传输方案、RGB图像语义传输方案与RGB-红外多源图像语法传输方案的FPS分别为4.14、4.03和3.68,表明所提方案在保证精度的同时具备更优的推理效率。

4 结束语

本文围绕多源视觉高效信息传输及处理需求,结合典型应用场景,构建了适用于智能车联网与无人机平台等场景的多源视觉语义传输架构,并提出了一种RGB与红外图像融合的多源视觉语义传输方案,探索其在图像重建与目标跟踪任务中的性能表现。实验结果表明,所提的RGB-红外多源图像语义传输模型在复杂信道条件下依然具备较强的抗噪能力和任务性能,在低信噪比环境下的图像重构精度与跟踪成功率显著优于传统语法通信方案,验证了语义通信方法在多源视觉任务中的有效性。未来研究可进一步拓展至跨模态语义建模、多用户协同传输机制与信道-计算资源协同优化等方向,推动语义通信在自动驾驶、无人系统、工业互联网等智能场景中的广泛应用。

[1] Lyu Z, Zhu G, Xu J, et al. Semantic communications for image recovery and classification via deep joint source and channel coding[J]. IEEE Transactions on Wireless Communications, 2024,23(8): 8388-8404.

[2] Huang D, Tao X, Gao F, et al. Deep learning-based image semantic coding for semantic communications[C]//2021 IEEE Global Communications Conference (GLOBECOM). IEEE, 2021: 1-6.

[3] Burnett K, Yoon D J, Wu Y, et al. Boreas: A multi-season autonomous driving dataset[J]. The International Journal of Robotics Research, 2023,42(1-2): 33-42.

[4] Zheng L, Ma Z, Zhu X, et al. TJ4DRadSet: A 4D radar dataset for autonomous driving[C]//2022 IEEE 25th international conference on intelligent transportation systems (ITSC). IEEE, 2022: 493-498.

[5] Chen Y, Li W, Chen X, et al. Learning semantic segmentation from synthetic data: A geometrically guided input-output adaptation approach[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 1841-1850.

[6] Li C, Liang X, Lu Y, et al. RGB-T object tracking: Benchmark and baseline[J]. Pattern Recognition, 2019,96: 106977.

[7] Zhang Q, Zhao S, Luo Y, et al. ABMDRNet: Adaptive-weighted bi-directional modality difference reduction network for RGB-T semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 2633-2642.

[8] Yuan M, Wang Y, Wei X. Translation, scale and rotation: cross-modal alignment meets RGB-infrared vehicle detection[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 509-525.

[9] Wang K, Chen K, Li C, et al. Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2025, 39(7): 7780-7788.

[10] Wu Z, Chen G, Gan Y, et al. Mvfusion: Multi-view 3d object detection with semantic-aligned radar and camera fusion[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023: 2766-2773.

[11] Li H, Ma Y, Gu Y, et al. Radarcam-depth: Radar-camera fusion for depth estimation with learned metric scale[C]//2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024: 10665-10672.

[12] Wang Y, Li Y, Liang P P, et al. Cross-attention is not enough: Incongruity-aware dynamic hierarchical fusion for multimodal affect recognition[J]. arXiv preprint arXiv:2305.13583, 2023.

[13] Xue Z, Marculescu R. Dynamic multimodal fusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 2575-2584.

[14] Wang Y, Chen X, Cao L, et al. Multimodal token fusion for vision transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 12186-12195.

[15] Bourtsoulatze E, Kurka D B, Gündüz D. Deep joint source-channel coding for wireless image transmission[J]. IEEE Transactions on Cognitive Communications and Networking, 2019,5(3): 567-579.

[16] Guo L, Chen W, Sun Y, et al. Hierarchy-Aware and Channel-Adaptive Semantic Communication for Bandwidth-Limited Data Fusion[J]. IEEE Wireless Communications Letters, 2025.

[17] Huang J, Yuan K, Huang C, et al. D 2-JSCC: Digital Deep Joint Source-channel Coding for Semantic Communications[J]. IEEE Journal on Selected Areas in Communications, 2025.

[18] Jia Y, Huang Z, Luo K, et al. Lightweight joint source-channel coding for semantic communications[J]. IEEE Communications Letters, 2023,27(12): 3161-3165.

[19] Zhang P, Zhao J, Wang D, et al. Visible-thermal UAV tracking: A large-scale benchmark and new baseline[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 8886-8895. ★

★原文刊发于《移动通信》2025年第7期★

作者简介

王佳琪:北京邮电大学信息与通信工程学院在读硕士研究生,研究方向为语义通信、图像传输和机器学习。

郑思源:中国矿业大学(北京)人工智能学院在读本科生,研究方向为语义通信、图像传输和机器学习。

刘宜明:北京邮电大学信息与通信工程学院副教授、博士生导师,研究方向主要为语义驱动的智简信息传输与组网理论及方法。

★往期推荐

【6G卫星互联网】2025年第6期专题论文汇总(19篇)

《移动通信》用论文解读通信

《移动通信》杂志由中国电子科技集团公司主管,中国电子科技集团公司第七研究所主办,是中国期刊方阵“双效期刊”、工业和信息化部精品电子期刊、中国科技论文统计源刊、中国通信学会《信息通信领域高质量科技期刊分级目录》入选期刊、中国电子学会《电子技术、通信技术领域高质量科技期刊分级目录》入选期刊、中国应用型核心期刊、日本JST收录期刊。国内连续出版物号:CN44-1301/TN,国际连续出版物号:ISSN1006-1010,邮发代号:46-181。

来源:移动通信编辑部

相关推荐