摘要:Apple 发布了 Pico-Banana-400K,这是一个精心策划的 400,000 张图像研究数据集,有趣的是,它是使用 Google 的 Gemini-2.5 模型构建的。以下是详细信息。
Apple 发布了 Pico-Banana-400K,这是一个精心策划的 400,000 张图像研究数据集,有趣的是,它是使用 Google 的 Gemini-2.5 模型构建的。以下是详细信息。
苹果的研究团队发表了一项有趣的研究,名为“Pico-Banana-400K:用于文本引导图像编辑的大规模数据集”。
除了这项研究之外,他们还发布了其生成的完整 400,000 张图像数据集,该数据集具有非商业研究许可证。这意味着任何人都可以使用它和探索它,只要它是用于学术工作或人工智能研究目的。换句话说,它不能用于商业用途。
几个月前,谷歌发布了 Gemini-2.5-Flash-Image 模型,也称为 Nanon-Banana,它可以说是图像编辑模型方面最先进的模型。
其他模型也显示出显著的改进,但是,正如苹果研究人员所说:
“尽管取得了这些进步,但由于缺乏大规模、高质量和完全可共享的编辑数据集,开放研究仍然受到限制。现有数据集通常依赖于专有模型或有限的人类策划子集的合成生成。此外,这些数据集经常表现出域偏移、编辑类型分布不平衡和质量控制不一致,阻碍了稳健编辑模型的开发。
因此,苹果开始为此做点什么。
苹果做的第一件事就是从 OpenImages 数据集中提取数量不详的真实照片,“选择这些照片是为了确保覆盖人类、物体和文本场景”。
然后,它列出了用户可以要求模型进行的 35 种不同类型的更改,分为八类。例如:
像素和光度: 添加胶片颗粒或复古滤镜以人为本: Funko-Pop风格的人玩具公仔场景构图和多主题: 改变天气条件(晴/雨/雪)对象级语义: 重新定位对象(更改其位置/空间关系)规模: 放大接下来,研究人员将向 Nano-Banana 上传一张图像,并附上其中一个提示。一旦 Nano-Banana 生成了编辑后的图像,研究人员将让 Gemini-2.5-Pro 分析结果,根据指令合规性和视觉质量批准或拒绝它。
结果变成了 Pico-Banana-400K,其中包括通过单轮编辑(单个提示)、多轮编辑序列(多个迭代提示)以及比较成功和失败结果的偏好对生成的图像(因此模型还可以了解不良结果是什么样子)。
研究人员承认 Nano-Banana 在细粒度空间编辑、布局外推和排版方面的局限性,但表示他们希望 Pico-Banana-400K 能够成为“训练和基准测试下一代文本引导图像编辑模型的坚实基础”。
您可以在 arXiv 上找到该研究,该数据集可在 GitHub 上免费获得。
来源:智视角