摘要:Cheng, L., Zhang, H., Di, B., Niyato, D., & Song, L., “Large Language Models Empower Multimodal Integrated Sensing and Communicati
Cheng, L., Zhang, H., Di, B., Niyato, D., & Song, L., “Large Language Models Empower Multimodal Integrated Sensing and Communication,”IEEE Communications Magazine, vol. 63, no. 5, pp. 190–197, May 2025. DOI: 10.1109/MCOM.004.2400281。
集成感知与通信(ISAC)被视为 6G 无线网络的关键候选技术之一。值得注意的是,在 ISAC 系统中整合多模态感知信息,有望进一步提升通信性能。然而,传统 ISAC 方法通常面向单模态数据而设计,难以有效处理并融合语义上更为复杂的多模态信息;同时,这些方法往往针对特定数据类型或任务进行定制,泛化能力不足。多模态大型语言模型(MLLMs)在海量多模态数据上训练并拥有大规模参数,有望成为解决上述问题的有力工具。本文首先提出了一个由 MLLM 赋能的 ISAC 系统,以实现更优的通信与感知性能;我们先介绍 ISAC 与 MLLM 的基本原理,然后给出系统总体框架及其带来的机遇。进一步地,本文通过一个案例研究展示 MLLM 在 ISAC 中执行波束预测任务时的优越性能。最后,我们讨论关键研究挑战与未来潜在方向。
集成感知与通信(ISAC)是 6G 的关键技术,旨在在统一体系内促进无线通信与无线感知的互助与共赢。随着 6G 及后续应用的多样化发展,对多模态感知的需求逐步增强。所谓多模态感知,是指通过多种感知机制、从不同视角采集信息,从而对环境进行更全面理解;如同人类通过味觉、嗅觉、触觉、听觉与视觉来感知周遭世界。鉴于多模态感知对环境理解的重要性,将其纳入 ISAC,构建多模态 ISAC 系统势在必行。此类系统有望进一步促进通信与感知功能的互助增强,典型应用包括智能交通、无人机集群和智能工厂等。
尽管多模态 ISAC 在感知与通信性能上展现出显著潜力,但在多模态数据融合上仍面临挑战:智能体需要理解每一模态的语义信息并将其关联起来。现有方法多为各模态独立特征提取,随后通过简单拼接或加权融合实现集成。此类方式虽可合并数据,但往往无法充分挖掘模态间深层语义关系与互补性。相比之下,MLLM 通过联合训练在统一框架内处理多模态输入,更好地利用模态间的相关性与互补性。
本文主张在多模态 ISAC 系统中引入 MLLM 以应对上述挑战。MLLM 继承并扩展了最初面向文本处理的大型语言模型(LLM);通过架构调整与多模态联合训练,MLLM 能有效处理多模态数据。联合训练在优化网络参数时显式考虑模态间的相关与互补,使模型能够吸收来自多种感知源的数据并融入内部表征;同时,这种训练方式还能显著提升对新环境或新任务的泛化能力,这是传统模型难以企及的。随后,我们从多模态 ISAC 的若干典型场景说明 MLLM 的增益:
智能交通:车辆搭载的 RGB-D、LiDAR、雷达等传感器可识别道路多类目标,提高行驶效率并降低事故风险;路侧单元可基于多模态数据提取目标位置与运动状态辅助动态波束赋形。MLLM 凭借强泛化能力可辅助实时路径规划与决策,使车辆在复杂交通环境中安全通行。
无人机集群:在复杂城市环境中,无人机可借助 LiDAR 与相机开展大规模三维建模;在弱光或恶劣天气下,雷达与红外相机可用于监视与目标搜寻。MLLM 能高效处理多模态数据,并据地形与障碍信息优化编队,提高导航精度并保障通信链路稳定。
智能工厂:机器人上的 RGB-D 提供高分辨率的颜色与深度信息,LiDAR 则带来远距离高精度定位能力。通过波束宽度调整与多机器人协同通信,可提升链路可靠性。以 MLLM 作为先验知识可减少对任务专属数据的依赖,支撑感知、推理与规划等核心能力。
本文贡献包括:介绍多模态 ISAC 概念与性能收益,概述 MLLM 的基本框架及其在多领域的成功应用以激发融合动机;提出一套由 MLLM 赋能的 ISAC 系统框架并阐释其带来的机遇;给出一个以波束预测为例的案例研究,展示 MLLM 在利用感知数据辅助 ISAC 任务中的潜力;最后总结关键挑战与未来研究方向。
基础概念:系统性介绍多模态 ISAC 的原理与性能增益,并梳理 MLLM 的基本工作流与关键组件,作为二者融合的理论与技术动机。
融合框架与机遇:提出“MLLM 赋能的 ISAC”总体框架,给出输入投影、对齐、生成与指令微调等环节如何同时处理感知数据与通信控制/配置信号,并指出因此带来的新机遇(如跨模态语义对齐、基于环境语义的通信自优化等)。
案例研究与评估:以 DeepSense 6G 数据集为基准,针对波束预测任务对比 Random Forest、KNN、MLP 等传统方法,展示在恰当提示工程下,ChatGPT-4 等 MLLM 在 Top-k 准确率上的优势与更强的场景泛化能力。
挑战与展望:从理论边界、云—边—端协同机制、数据隐私与安全三个层面提出关键挑战与研究方向,为工程落地与学术探索提供路线图。
图1用三幅示意图把“多模态感知 + 通信”的应用落到三个典型场景:智能交通、无人机集群、智能工厂。共同主线是:用 RGB-D、LiDAR、雷达、相机等多模态传感重建环境(几何/拓扑/散射体),辅助通信侧做波束与链路自优化;反过来,稳定的通信链路也让多智能体共享感知数据、扩大覆盖与精度。
左图(智能交通):路侧相机+传感可做遮挡/切换预测,配合射线追踪重建多径,提高信道建模与波束效率。
中图(无人机群):通过协同通信共享多模态数据,实现分布式感知与任务分配,提升整体感知能力与链路鲁棒性。
右图(智能工厂):机器人用 RGB-D+LiDAR 感知近远障碍,结合多机器人协同通信与波束宽度自适应,增强可靠性。
要点
点明“双向赋能”(sensing-assisted comm & comm-assisted sensing)如何在三类场景闭环提升性能。
举一到两个“通信侧可少打导频、波束更稳;感知侧覆盖更广”的例子承上启下。
图2是“任何模态到任何模态”的端到端多模态大模型(MLLM)流程:前端多模态编码 → 跨模态对齐学习 → 多模态生成 → 多模态指令微调,形成统一表征空间与通用理解/生成能力。
输入侧:多模态编码器抽取不同模态特征;通信侧的控制/配置信号可符号化后走词嵌入,进入同一向量空间。
中间对齐:用线性投影、Q-former 或跨注意力把多模态特征映射到同一表征,便于统一推理。
输出侧:既能生成文本也能产出“信号 token”,再经输出投影映射回具体模态空间,用于控制/决策。
要点
强调“通信信号 → 文本样式 token → 向量空间”的桥接,让读者理解为何 MLLM 能直接参与通信优化。
图3把“MLLM 融合多模态感知数据与通信控制信号,并输出决策/预测以驱动 ISAC”的系统级闭环画清楚:信息处理 → 数据对齐 → 生成决策与控制指令。右侧表格则列出常见 MLLM 与其支持的模态。
信息处理:预训练多模态编码器学习模态间语义关系;词嵌入层承接文本/控制/配置信号。
对齐与推理:多头注意力在处理文本指令时同时“看见”通信信号状态;输出既有文字说明,也有可下发到通信侧的信号 token。
落地任务:基于环境语义的波束管理、自组织网络、遮挡与切换预测等,都可由此统一驱动。
要点
用“一图三段”法写作:①输入(RGB-D/雷达/控制信号)②中间(对齐与指令调优)③输出(决策与控制),配一例“预测未来遮挡并提前调整波束”。
图4展示了把数字化感知数据(如 GPS、RGB 图像)输入 ChatGPT-4,通过提示工程完成波束索引多分类预测的全过程,并与传统分类器(RF、KNN、MLP)做对比评估。数据来自 DeepSense-6G,覆盖多场景与天气。
任务定义:多分类(选最优波束索引);
评估指标:Top-k 准确率(Top-1/2/3),只要真值出现在前 k 个预测即计为正确,契合通信中“候选波束集合”的实际策略。
信息点:图中给出完整提示结构(目标、背景、数据说明),体现“正确描述问题”对 MLLM 性能的重要性。
要点
说明“为何用 Top-k”:工程上常先选少量候选波束再快速探测;
给出“感知→语义→候选波束”的闭环,突出多模态数据降低开销、提升精度的价值。
本文提出了一种由多模态大型语言模型(MLLM)赋能的 ISAC 系统方案,以在未来 6G 网络中实现更优的通信与感知性能。我们首先阐释了 ISAC 与 MLLM 的基本概念与原理,随后给出一套融合框架并讨论其带来的机遇。通过案例研究,我们表明在处理 ISAC 中的波束预测等任务时,MLLM 能够超越传统方法,从而验证了二者融合的可行性。最后,我们总结了将 MLLM 融入 ISAC 所面临的挑战,并提出了可能的研究方向。
来源:寂寞的咖啡