万物皆可描述!遥感图像进入细粒度时代,模型数据和代码全开源!

B站影视 内地电影 2025-10-17 04:53 1

摘要:遥感,是一个高度应用驱动的领域。如今,借助视觉语言模型深入分析遥感图像,正催生前所未有的能力:灾害救援队可瞬间评估灾区建筑损毁,环保机构能精准追踪非法排污与森林砍伐。

从指代分割、零样本检测任务到万物细粒度描述

遥感,是一个高度应用驱动的领域。如今,借助视觉语言模型深入分析遥感图像,正催生前所未有的能力:灾害救援队可瞬间评估灾区建筑损毁,环保机构能精准追踪非法排污与森林砍伐。

而上述场景就需要模型能够生成细粒度、对象级的自然语言描述。今天要介绍的开源多模态模型DescribeEarth,让遥感图像告别模糊的整体描述,迈入万物皆可细述的新时代,对应的所有数据、代码和权重均已开源。

通用图像描述任务主要侧重于为整个图像生成单个整体性的句子或段落,而在遥感图像描述领域需要对象级的细粒度解译,从而充分利用图像中所蕴含的丰富语义和结构信息。

通用图像描述的处理方式

早期方法通常使用基于区域的CNN或基于Transformer的骨干网络作为编码器来提取局部区域特征,然后使用RNN或LSTM作为解码器来生成自然语言描述,其通常在小数据集上训练,并产生简短、粗粒度的句子。

随着多模态大语言模型的出现,图像描述能力得到了显著提升,允许为通用图像生成更连贯和上下文丰富的描述。但哪怕是强大的GPT-4o、Gemini,在面对遥感图像时,也常常像个外行,只能给出“这是一片城市区域”或“这里有水体”之类笼统的描述。

遥感图像描述的处理方式

早期的遥感图像描述尝试也侧重于场景级描述,通常通过调整通用视觉-语言模型来对整个遥感图像进行分类和提供粗略摘要。

最近英伟达提出的描述万物模型标志着自然图像的详细局部描述领域的重大飞跃。DAM通过其聚焦提示和局部视觉骨干网络,巧妙地平衡了局部细节与全局上下文,为用户指定区域生成细致入微的详细描述。

但由于自然视觉数据与遥感视觉数据之间的差异,包括独特的视角(例如,天底视图)、对象的巨大尺度变化以及与地理分析相关的独特语义上下文。遥感领域向局部理解、细粒度理解任务的架构该如何设计?原论文及数据

# 项目DescribeEarth: Describe Anything for Remote Sensing Images# 论文https://arxiv.org/pdf/2509.25654# 代码https://github.com/earth-insights/DescribeEarth# 数据https://mp.weixin.qq.com/s/FjmlKo0EkEzXhAk82AdeFQ?token=1479711943&lang=zh_CN

来自西安交大的研究团队为了实现遥感图像的细粒度描述任务。提出了基于VLM架构的DescribeEarth模型,它能够基于现成的检测器或用户交互,生成详细的、开放式的局部化描述。

多模态大模型在描述遥感图像时的结果比较

数据集如何做?现有的遥感数据集通常提供用于分类的标签、用于检测的边界框、用于分割的掩码或用于整个图像描述的粗略描述,但很少提供细粒度任务所需的实例级文本描述。

手动创建这样的数据集是不切实际的,需要大量的资源和专业的地理空间专业知识来准确描述复杂的细节和特征。通过一个精心设计的数据流水线构建的,该流水线利用MLLMs和现有的遥感目标检测数据集,并辅以人工验证。

最终构建了DE-Dataset,一个大规模数据集,包含25个类别和261,806个带注释的实例,详细描述了对象属性、关系和上下文。

模型如何设计?DescribeEarth利用RemoteCLIP的特征作为引导先验,并集成了一种新颖的视觉特征融合机制,以有效编码目标区域的高分辨率细节和遥感类别先验,同时保持全局上下文,从而产生高度详细且上下文感知的局部描述。

模型在 Benchmark 上的性能明显优于最先进的通用MLLMs,展现出卓越的事实准确性、描述丰富性和语法正确性,特别是在捕获简单、复杂甚至分布外遥感场景中的内在对象特征和周围环境属性方面。

DescribeEarth 首次把“万物级”自然语言描述能力带到遥感图像,对应的 DAM 的那套细粒度 Caption 能力如何获取可查看下述文章链接。

最后,关注视觉大模型与多模态大模型的小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!

来源:码科智能一点号1

相关推荐