摘要:图像描述/字幕(Image Captioning)是用文字描述图像内容的任务,属于计算机视觉和自然语言处理的交叉领域。大多数图像描述系统采用编码器-解码器(encoder-decoder)框架,其中输入图像被编码为中间表示形式,然后解码为描述性文本序列。最受欢
图像描述/字幕(Image Captioning)是用文字描述图像内容的任务,属于计算机视觉和自然语言处理的交叉领域。大多数图像描述系统采用编码器-解码器(encoder-decoder)框架,其中输入图像被编码为中间表示形式,然后解码为描述性文本序列。最受欢迎的基准测试包括nocaps和COCO,模型的性能通常通过BLEU或CIDER指标进行评估。
本篇汇总了图像描述/字幕相关开源模型与数据集,助力开发人员的研究进程,轻松获取所需算法与数据。
模型
PixelLLM
PixelLM 是一个基于大型多模态模型(LMM)的像素级推理和理解的方法。可以提供对图像上具体某个位置的详细描述,并精确指出其位置!PixelLLM 的输入可以是图像,也可以选择性地包含位置提示或文本提示。
特点如下:
像素级词汇对齐(精准描述图中内容,并指出具体位置)根据文字提示描述图片中特定部分,或生成特定位置的描述1.Pixel-Aligned Image Captioning
鼠标在图片上划过,根据划过的路径像素点,给出对应的描述。
在这张图像中,可以看到一个人拿着一根胡萝卜和一只动物。背景中可以看到一个栅栏、一些树、一匹马和天空。除此之外,还可以进行分割图片并且描述,以及密集图像字幕。
2.Referring Localization and Segmentation
3.Dense Object Caption
参考论文:Pixel Aligned Language Models论文地址:https://arxiv.org/abs/2312.09237开源地址:https://github.com/google-research/scenic/tree/main/scenic/projects/pixel_llmCaption-Anything
Caption Anything 是一款多功能图像处理工具,结合了 Segment Anything 的目标分割功能,视觉描述和 ChatGPT 的智能对话特性,能够对图像中的任何物体自动生成精确且多样的描述。不仅支持鼠标点击的视觉控制,还允许用户通过调整长度、情感、真实性和语言等参数来定制文本生成。
特点如下:
视觉控制和语言控制用于生成文本深入探讨对象交互式演示AI解读清明上河图开源地址:https://github.com/ttengwang/Caption-Anythingbottom-up-attention
本文介绍一种结合自下而上和自上而下的视觉注意力机制,用于图像字幕和视觉问答任务。通过 FasterR-CNN 识别图像区域,结合任务上下文决定注意力权重。在 MSCOCO 图像字幕任务中取得了新纪录(CIDEr 117.9,BLEU_4 36.9),且在 2017 年 VQA 挑战赛中获得第一(总体准确率70.3%)。
参考论文:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(CVPR 2018)论文地址:https://arxiv.org/abs/1707.07998开源地址:https://github.com/peteanderson80/bottom-up-attentionAoANet
Attention on Attention(AoA)模块是对传统对注意力机制的扩展,用于解决无关注意力的问题。此外,通过将 AoA 应用于编码器和解码器,提出了用于图像描述的 AoANet 模型。在 MS COCO Karpathy 离线测试集上获得了 129.8 的 CIDEr-D 得分,在官方在线测试服务器上获得了 129.6 的 CIDEr-D(C40)得分,创造了新的最先进的性能。
参考论文:Attention on Attention for Image Captioning (ICCV 2019 Oral)论文地址:https://arxiv.org/abs/1908.06954开源地址:https://github.com/husthuaan/AoANet数据集
Conceptual Captions
Conceptual Captions 是一个包含(图像URL,字幕)对的数据集,旨在训练和评估机器学习的图像字幕系统。对应的字幕描述是从数十亿网页中提取过滤而来,数据集规模比 MS-COCO 数据集(由Lin等人于2014年发布)扩大了整整一个数量级。更重要的是,该数据集在图像种类及描述风格上展现出了更为丰富的多样性。
CC数据集因为数据量的不同分为CC3M(约330万对图文对)以及CC12M(约1200万对图文对)两个版本。
参考论文:Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning论文地址:https://aclanthology.org/P18-1238.pdf下载地址:https://github.com/google-research-datasets/conceptual-captionsMS COCO Caption
MS COCO Caption 数据集以场景理解为目标,从日常生活场景中捕获图片数据,并通过人工进行标注。该数据集包含两个数据集:
MS COCO c5:包含的训练集、验证集合测试集图像和原始的 MS COCO 数据库一致,每个图像都带有 5 个人工生成的标注语句;MS COCO c40:只包含 5000 张图片,是从 MS COCO 数据集的测试集中随机选出的。不同于 c5 的是,它的每张图像都有用 40 个人工生成的标注语句。参考论文:Microsoft COCO Captions: Data Collection and Evaluation Server论文地址:https://arxiv.org/abs/1504.00325下载地址:https://github.com/tylin/coco-captionFlickr30k
Flickr30k 数据集包含 31,783 张图像,每张图像都附带了 5 句详细的标注语句,总计 158,915 句标注。该数据集是 Flickr 8k 数据集的扩展,图像和字幕更侧重于参与日常活动和事件的人物。
参考论文:From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions论文地址:https://aclanthology.org/Q14-1006.pdf下载地址:https://huggingface.co/datasets/nlphuji/flickr30knocaps
nocaps 数据集由 4500 和 10600 张校验集和测试集图像组成,源于 Open Images object detection 数据集,并且每张图像配有 11条人工生成的标注(自动的评估10条参考描述+一条人工baseline),训练数据来自 COCO Captions2017(118K 图像包含 80 个物体类别)+Open Images V4目标检测训练集(1.7M 图像,标注了 600 个物体类别的框和 20K 类别图像标签)。
参考论文:nocaps: novel object captioning at scale(ICCV 2019)论文地址:https://arxiv.org/abs/1812.08658下载地址:https://nocaps.org/IAPR TC-12
IAPR TC-12 基准的图像集合包括从世界各地拍摄的 2 万张静态自然图像,包括不同运动和动作的照片,以及人、动物、城市、风景和当代生活的许多其他方面的照片。每张图片配对了英语、德语、西班牙语三种语言的标注。
参考论文:The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems论文地址:http://www.thomas.deselaers.de/publications/papers/grubinger_lrec06.pdf下载地址:https://www.imageclef.org/photodata来源:趋动云