IBM发布轻量级视觉语言模型Granite-Docling-258M:

B站影视 内地电影 2025-09-20 20:21 1

摘要:IBM 现已正式发布了小型视觉语言模型 Granite-Docling-258M,定位于端到端文件转换场景用途,相应模型采用 Apache 2.0 开源协议,目前已在 Hugging Face 上线(点此访问)。

IT之家 9 月 20 日消息,IBM 现已正式发布了小型视觉语言模型 Granite-Docling-258M,定位于端到端文件转换场景用途,相应模型采用 Apache 2.0 开源协议,目前已在 Hugging Face 上线(点此访问)。

据介绍,该模型参数量为 2.58 亿,号称是一款专为文档表格设计的轻量级模型,输出结果能够完整保留版面、表格、数学公式、列表和代码块等结构,同时准确度相比传统 OCR 软件识别准确性更高。

IBM 透露,Granite-Docling 的核心在于 DocTags,这是由 IBM Research 设计的一套通用文件结构标记语言,能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系。其能够 DocTags 将内容与版面结构分离,模型可以先识别元素范围再执行 OCR 识别,完成转换后,DocTags 可直接将内容导出为 Markdown、JSON、HTML 等格式,也可以进一步进入 Docling 库进行处理。

目前,Granite-Docling 支持中文、阿拉伯语和日语等语言,不过尚未达到“企业级”水准,IBM 称未来开发人员将逐步扩展语言覆盖范围并提升模型可靠性。同时还将进一步增强 DocTags 与 IBM watsonx.ai 模型的兼容性,并计划把 DocTags 词汇表纳入 Granite 分词器和训练流程。

来源:IT之家

相关推荐