摘要:传统的光学字符识别(OCR)技术在处理复杂、多样的文档时已显现出诸多局限性。随着多模态大模型的崛起,我们正迎来一个全新的智能文档时代。这项技术不仅能够“看懂”文字,更能理解图像、表格和复杂的版式,实现了从“识别”到“理解”的跨越。本文将深入探讨多模态大模型如何
导读
在数据量呈爆炸式增长的今天,企业面临着前所未有的非结构化数据处理挑战。
传统的光学字符识别(OCR)技术在处理复杂、多样的文档时已显现出诸多局限性。随着多模态大模型的崛起,我们正迎来一个全新的智能文档时代。这项技术不仅能够“看懂”文字,更能理解图像、表格和复杂的版式,实现了从“识别”到“理解”的跨越。本文将深入探讨多模态大模型如何驱动数据处理与治理的革新。我们将首先回顾传统 OCR 技术的痛点与挑战,进而展示多模态大模型在统一表征、长上下文处理和端到端识别等方面的技术突破。文章还将详细解析多模态大模型在实际业务中的落地策略,特别是如何通过混合流水线(Hybrid Pipeline)构建更强大、更灵活的文档处理系统。最后,我们将通过一个制造业的真实案例,展示这一技术在构建企业知识库、赋能业务决策中的巨大价值,并对未来技术趋势进行展望。
主要内容包括以下几个部分:
1. 背景与痛点
2. 传统 OCR 技术栈概览
3.多模态大模型崛起
4. 训练成本
5. 多模态大模型落地
6. 混合流水线 Hybrid Pipeline
7. 行业落地案例
8. 未来趋势浅谈
9. 问答环节
分享嘉宾|刘超
内容校对|郭慧敏
出品社区|DataFun
01
我们正处在一个数据爆炸的时代。预计到 2025 年,全球数据总量将达到惊人的 181ZB,年复合增长率约为 23%。然而,在这些海量数据中,结构化数据占比不到 20%,其余超过 80% 都是非结构化数据,如扫描的 PDF、音视频文件、电子邮件等。传统的 ETL(提取、转换、加载)技术在处理结构化数据方面已经非常成熟,但面对日益增长的非结构化数据则显得力不从心。
与此同时,各行各业的业务数字化进程正在加速。在招投标、财务报销、合规审计等关键业务流程中,对高质量文档解析的需求日益旺盛。企业内部积累了大量的历史文档,这些文档格式多样、内容复杂,如何高效利用这些数据成为一大难题。
幸运的是,我们正迎来一个关键的技术拐点。以 GPT-4V、Gemini 1.5 为代表的视觉-语言模型(Vision-Language Models)取得了重大突破。这些多模态大模型不仅能识别文本,更能“看懂”文档的排版、布局和深层语义,将识别、理解和问答(VQA)融为一体,为解决非结构化数据处理的难题带来了全新的可能性。
在多模态大模型出现之前,光学字符识别(OCR)是文档数字化的主要技术,但其面临着四大核心挑战:
这些挑战共同限制了传统 OCR 技术在复杂文档处理场景下的应用效果和扩展性,凸显了向更智能、更整合的技术范式转变的迫切性。
传统 OCR 技术的工作流程是一个标准化的、分步骤的流水线,旨在将图像中的文字信息转化为机器可读的文本。这个过程大致可以分为以下几个关键环节:
整个流程是一个典型的串行结构,每个环节的输出是下一个环节的输入,环环相扣。
尽管传统 OCR 技术在特定场景(如清晰的印刷体文档)下能达到较高的准确率,但其固有的技术范式带来了四大难以克服的局限性:
这些局限性共同决定了传统 OCR 技术难以胜任智能文档时代对深度理解和高效治理的更高要求。
03多模态大模型崛起随着深度学习技术的发展,多模态大语言模型(Multimodal Large Language Models)的崛起正在从根本上改变文档处理的游戏规则。它不再是分步处理的流水线,而是实现了端到端的统一处理,带来了革命性的技术突破。
(1)统一表征学习:结构、语义、空间三位一体
多模态大模型的核心优势在于其统一的表征学习能力。它借鉴了 Transformer 架构的强大能力,将文档中的视觉信息(字体、颜色、布局)、排版信息(坐标、顺序)和语义信息(文本内容)融合在同一个高维向量空间中。这意味着模型能够同时“看到”和“读懂”一份文档。例如,SmolDocling 模型通过 DocTags 技术,将元素内容和其坐标序列化,仅用 256M 参数就能还原多领域的版面。而 DocLLM 模型甚至无需专门的图像编码器,仅通过边界框(bounding box)和文本的对齐,就能高效迁移到发票、表单等复杂布局的文档处理任务上,处理速度提升 3-4 倍。这种端到端的处理方式,可以直接输出结构化的结果(如Markdown)、摘要或进行问答,彻底告别了传统 OCR“N 段式流水线”的繁琐与误差累积。
(2)端到端 OCR-free 识别
一些先进的多模态模型甚至可以实现“OCR-free”的识别,即跳过传统的字符识别步骤,直接从像素到文本生成内容。例如,GPT-4o 在分辨率大于等于 300 ppi 的场景下,其识别准确率已能与经典的 Tesseract 引擎持平。而像 GOT-OCR 和 Nougat 这样的模型,更是可以将文档中的文字、表格、甚至是 LaTeX 数学公式,一次性地、完整地生成为结构化的 Markdown 或 TikZ 格式,免去了复杂的分割与后处理环节。
(3)超长上下文与跨页推理
传统模型处理长文档时,通常需要将其拆分成小片段,这会导致上下文信息的丢失。而现代多模态大模型在上下文长度上实现了巨大突破。例如,Gemini 1.5 Pro 支持超过 100 万个 token 的单次输入,这意味着它可以一次性“读完”一份数百页、几十兆的 PDF 文档,并就其中的细节问题进行精准回答。这种处理超长文档而无需拆分的能力,使得跨页、跨章节的复杂推理成为可能。
(4)效果跃升与零样本/少样本能力
在多个权威的文档理解基准测试(如 DocVQA、MMDocBench)上,多模态大模型的表现已经逼近甚至超越了人类水平。尤其在表格和图像问答方面,其性能显著领先于“传统 OCR+NLP”的技术组合。一个关键的优势是,这些大模型由于经过海量数据的预训练,具备了强大的泛化能力,通常无需针对特定文档类型进行专门的训练,就能取得非常好的效果,实现了强大的零样本(zero-shot)或少样本(few-shot)学习能力。
尽管多模态大模型展现出强大的能力,但其高昂的训练成本是商业落地前必须考虑的重要因素。成本主要分为预训练(pre-training)和微调(fine-tuning)两个层面。
从头开始训练一个大规模的多模态模型,是一项极其耗费资源的任务,通常只有大型科技公司或国家级研究机构能够承担。
文本大模型:训练一个文本大模型,通常需要 1 到 3 周的时间,动用数百张顶级的 GPU(如图形处理器)。其总成本估算在百万到千万美元级别。
多模态大模型:由于需要处理图像、文本等多种数据,其复杂性更高。训练周期可能长达 3 到 6 周,所需的 GPU 规模达到数千张,总成本则飙升至数千万甚至上亿美元。
这种级别的投入对于绝大多数企业而言是不现实的。因此,在实际应用中,大家普遍采用的是在已有预训练模型的基础上进行微调的策略。
微调是指利用自己特定领域的数据,对一个已经训练好的通用大模型进行“再训练”,使其更适应特定任务。虽然成本远低于从头训练,但仍然是一笔不小的开销。
我们可以通过一个微调项目的成本估算来具体了解:
项目设定:模型类型:选择一个开源的多模态模型,例如 MiniGPT-4 (7B)或 BLIP-2 (6B)。
数据准备:假设需要采集和标注 10 万组图文对数据。这是微调效果的关键,也是成本的重要组成部分。
训练资源:使用 8 张 NVIDIA A100 GPU,连续训练 24 小时。
工程师时间:需要 2 名工程师投入约一周的时间,进行数据清洗、模型训练和效果验证。
成本估算:数据准备与标注:约 $10k - $30k。数据质量直接决定模型效果,这部分投入不可或缺。
训练资源(云 GPU):约 $800。这是基于云服务按时计价的估算。
存储/IO/其他运维:约 $200。
工程师人力成本:约 $4k。
合计:整个微调项目的成本大约在 $15k - $35k 之间。
这个成本对于一些有明确需求和预算的企业来说是可接受的。例如,在处理特定的发票或医疗记录时,可以要求客户提供数千张高质量的标注数据,通过微调让模型在特定领域的表现得到显著提升。总而言之,虽然微调降低了使用大模型的门槛,但它依然是一项需要进行成本效益分析的专业技术投入。
05多模态大模型落地将强大的多模态大模型从理论转化为实际生产力,最主流和有效的方式之一是将其整合到检索增强生成(Retrieval-Augmented Generation, RAG)的框架中。然而,理想化的落地方式与现实中的工程实践存在显著差异。
在理想情况下,构建一个多模态 RAG 应用的流程可以非常简洁和高效。以经典的 ColPali 模型架构为例(图2),其工作流程如下:
索引(Indexing):将一份包含文本、图像等多种元素的 PDF 文档直接输入到一个视觉语言模型(Vision LLM)中。该模型能够端到端地理解整个文档的内容和结构,并将其编码成一个统一的向量表示,再将这个向量存储到向量数据库中。
检索与生成(Retrieval & Generation):用户提出的查询(Query),同样经过一个语言模型(LLM)处理,转换成与文档向量处于同一空间的查询向量。
在向量数据库中,通过计算相似度(如余弦距离)找到与查询最相关的文档向量。
将检索到的文档内容(或其向量)与原始查询一起,交给 LLM 进行最终的答案生成。
这种模式的核心优势在于其工程上的简洁性。整个流程中,核心组件就是一个强大的多模态模型。评估这个系统也变得相对简单,因为可以直接评测模型端到端的输出质量,而无需对流水线中的多个中间环节分别进行评估。这印证了一句工程名言:“如果你不能评测一个系统,你就没办法去提高它。”
与上述理想模式形成鲜明对比的是传统的、基于文本的 RAG 流程(图1):
索引(Indexing):对于一份 PDF 文档,首先需要通过 OCR 提取出纯文本。
接着可能需要进行版面检测(Layout Detection)来理解基本的文档结构。
然后对提取出的长文本进行分块(Chunking),切分成较小的片段。
将每个文本块(chunk)输入到一个文本嵌入模型(Text Embedding Model)中,生成向量。最后将这些向量存入向量数据库。
用户的文本查询也通过相同的文本嵌入模型生成查询向量,在向量数据库中检索出最相关的文本块。将这些检索到的文本块拼接起来,作为上下文信息提供给 LLM,生成最终答案。
这个传统流程的缺点显而易见:它是一个漫长且复杂的流水线。从 OCR、分块到嵌入,每个环节都可能引入误差。其评测也必须分为两部分:一是像搜索引擎一样评测检索环节的精确率(Precision)和召回率(Recall);二是要评测生成环节对检索到的内容进行总结和回答的质量。工程复杂度和维护成本远高于理想化的多模态 RAG。
尽管理想模型非常吸引人,但在真实的商业落地中,由于现有模型能力的限制和各种复杂的“边角案例”(corner cases),直接采用最简洁的端到端方案往往效果不佳。因此,工程师们探索出了更为务实和灵活的混合策略。
06混合流水线 Hybrid Pipeline在真实的业务场景中,直接套用理想化的多模态 RAG 架构往往会遇到挑战。模型的泛化能力、对特定格式的处理精度以及各种预料之外的“corner case”都要求我们构建一个更具鲁棒性和灵活性的系统。因此,一个混合的、更为复杂的流水线(Hybrid Pipeline)成为必然选择。
在实践中,构建多模态 RAG 系统主要有以下三种策略:
所有输入嵌入同一向量空间:这是最理想化的方式,即无论是文本、图片、音频还是视频,所有类型的输入都通过一个强大的多模态 LLM,被编码到同一个统一的向量空间中。用户的查询也使用同样的方式进行编码和检索。这种方法的优点是端到端,但挑战在于,当前的模型很难在所有模态上都达到足够高的精度,且返回的结果可能仍需后续处理才能直接使用,例如仅告诉你在第几页找到了相关信息。整合到同一个模式(文本):这是目前更为实用和普遍采用的一种方法。其核心思想是将所有非文本的模态信息预处理成文本格式,然后利用成熟的文本 RAG 流程进行后续的推理。例如,将图片内容通过图像描述(Image Captioning)模型生成文字描述,将音频通过语音识别(ASR)转为文字。Rank-Rerank 模式:这种模式为不同类型的数据维护不同的向量空间。例如,文本数据和图像数据分别使用不同的嵌入模型,存储在各自的向量索引中。当用户查询时,系统会从不同的索引中分别检索,然后通过一个“重排序(Rerank)”模型,对来自不同模态的候选结果进行综合评估和排序,选出最终最相关的结果。在我们(矩阵起源)的 AI 应用开发平台中,实际落地的多模态 RAG 系统采用的是一种基于第二种方法并加以优化的复杂混合流水线。这个工作流(Workflow)远比理想模型复杂,但能更好地应对真实世界的挑战。
以下是一个简化的流程描述,以处理一份包含图文的 PDF 文档为例:
输入与初步解析:当一份 PDF 文档进入系统后,首先会进行版面检测(Layout Detection)。系统会识别出文档中的文本块和图片区域。并行处理分支:文本分支:对于识别出的文本块,通过 OCR 技术提取出文字内容。图像分支:对于识别出的图片,系统会并行地送入两个不同的模型:LLM Caption:一个多模态大模型会为图片生成一段详细的文字描述(caption)。这段描述可能包含对图片中风景、物体、人物或场景的理解。OCR:同时,这张图片也会经过一次 OCR 处理,以提取图片中可能嵌入的任何文字(例如,图表中的标签、海报上的文字)。信息融合与分块:来自上述三个来源(原始文本 OCR、图片描述、图片内 OCR)的文本信息会被融合起来。例如,图片描述和图片内 OCR 提取的文字,会与图片在原文中位置最接近的文本块关联起来。融合后的长文本会进行分块(Chunking),形成大小适中的文本片段。向量化与存储:所有文本块都通过一个统一的文本嵌入模型(Text Embedding Model)转换成向量。这些向量最终被存储在向量数据库(Vector DB)中。混合检索:当用户发起查询时,除了进行向量相似度检索,系统还会结合文档的元数据(Metadata),如目录信息、标题、作者等进行混合检索(Hybrid Retrieve)。这些元数据可以作为过滤器,先缩小检索范围,再进行精准的向量匹配。这种混合流水线的核心优势在于,它极大地丰富了可被检索的信息维度。即使用户的查询词没有直接命中原文的字句,也可能命中由多模态大模型生成的图片描述,从而找到相关的图片内容。这种多层次、多维度的信息构建,显著提升了检索的召回率和准确性,使得系统能够应对更复杂的查询需求。虽然这个工作流看起来复杂,但它的每一个组件都是为了解决实际问题而设计的,体现了从理想模型到工程落地的必要演化。
07行业落地案例理论和技术最终要通过解决实际问题来体现其价值。以下是一个我们在制造业领域的典型落地案例,它清晰地展示了如何利用混合流水线和多模态技术,解决企业长期存在的数据治理难题。
我们为该客户设计并实施了一套完整的解决方案,其流程可以分为四个主要阶段:
1. 数据源接入与清洗:
数据接入:首先,我们平台的“数据载入器”模块对接了客户所有的数据源,包括各类数据库、文件系统和业务系统。通过一个持续同步的机制,将这些异构、分散的数据统一汇集到我们的对象存储(OSS)中。这不仅是一次性的全量同步,还支持增量更新,当源系统新增或变更文件时,会自动推送到平台。数据清洗:在此阶段,进行初步的 ETL 处理,例如解压缩文件、过滤掉不相关的类型、对文件名进行初步的标准化处理等。2. 数据解析与提取(核心环节):
这是混合流水线发挥关键作用的阶段。系统会对清洗后的文件进行深度解析:
内容解析与分类:识别文件类型,并应用不同的解析策略。关键内容提取:利用多模态模型,从扫描件或包含复杂图表的页面中提取关键信息。表格与目录识别:专门的模块负责识别和提取文档中的表格和目录结构,并将其作为重要的元数据。去重与敏感信息处理:判断内容是否重复,并对一些敏感信息进行识别和处理。3. 数据向量化与人工确认:
将上一步解析和提取出的结构化文本和元数据,进行分块和向量化,存入向量数据库。
我们保留了原始文件与生成的数据之间的引用关系(reference)。系统提供了一个人工确认界面,用户可以审核提取结果的准确性,并进行必要的修正或反馈。这种人机协同的模式确保了知识库的质量。
4. 数据召回与应用:
混合检索:当用户输入查询时,系统采用混合检索策略。首先,利用招标名称、时间等结构化元数据进行初步筛选,缩小范围;然后,在缩小后的范围内,利用向量相似度进行精准的内容匹配。
图文对齐:对于文档中的图片,我们通过版面分析保留了其在原文中的位置信息。在输出时,我们会将图片与上下文文字进行关联,例如,在相关文字描述后添加图片的引用,从而实现图文信息的对齐。
应用场景:素材搜索:业务人员可以根据新项目的特点(如应用场景、预算规模),快速搜索到历史上类似的成功案例和解决方案。
框架生成:系统可以根据用户需求,自动从知识库中整合相关内容,生成一份标书的初步框架或草稿。
商业业绩填充与内容生成:快速填充标书中需要的公司业绩、案例等内容。
处理行业“黑话”与增量同步:专有名词问题:针对企业内部的专有名词或“黑话”在语音转写或文本识别中效果差的问题,我们采用了两种方式:一是建立一个专有名词库,在后处理环节进行规则匹配和强制干预;二是通过微调模型,提升其对特定行业术语的识别能力。
增量同步:系统支持持续的数据流入。客户可以在自己的业务系统中直接操作,新增的文件会自动同步到知识库,而需要删除的文档,也可以在我们的系统中进行标记(逻辑删除),使其在检索时不可见,实现了知识库的动态维护。
通过这套解决方案,我们成功地将客户沉睡的30万份文档转化为了一个可查询、可利用的动态知识库,极大地提升了其业务运营效率和知识传承能力。
08未来趋势浅谈智能文档处理与多模态大模型的融合演进,正以前所未有的速度重塑我们与信息交互的方式。展望未来,我们可以预见以下几个关键的发展趋势。
从感知理解到知识抽取的全面升级
当前的多模态大模型已经能够很好地“感知”和“理解”文档内容,但未来的发展方向将是实现更深层次的知识抽取与统一。模型将能更精准地理解文档中图文、表格、公式、图像等多种元素之间的复杂关系,并将它们统一到一个连贯的知识结构中。这意味着模型不仅能回答“图片里有什么”,更能回答“这张流程图与第三章第二节的描述是否一致”,实现复杂的跨模态推理,如自动总结、图文一致性校验等。届时,我们与 PPT 的交互,可能不再是阅读,而是直接与结合了演讲者音频的整个知识体进行对话。
Agentic RAG + Multimodal LLM 的兴起
传统 RAG 的一个核心缺陷在于其“一次性”的检索过程,以及因分块(chunk)导致的上下文信息丢失。未来的趋势将是 Agentic RAG,即引入智能体(Agent)的概念。一个 Agent 可以进行多轮、多跳的思考和推理。
多轮推理:当一次检索结果不满足需求时,Agent 可以自主地调整查询、反思问题,并进行新一轮的检索,模拟人类的思考过程。
多源结合:可以构建多个 Agent,每个 Agent 负责一个特定的数据源(如一个数据库、一个文档库)。当面对一个复杂问题时,这些 Agent 可以协同工作,从不同的知识源中查找信息,最终整合出答案,从而有效解决数据孤岛问题。
将这种 Agentic 框架与多模态大模型结合,将创造出能够主动规划、执行、并从多模态数据中学习的强大文档处理系统。
边缘部署的演进:
随着模型轻量化技术的发展,将多模态模型部署到边缘设备(如手机、个人电脑)上将成为一个重要的趋势。
降低使用门槛:边缘部署可以显著降低对云端算力的依赖,减少网络延迟,并更好地保护用户隐私,从而降低文档智能技术的使用门槛。
个人私有知识库:想象一下,你的手机可以成为一个私有的个人知识库。部署在手机上的多模态模型能够整合你所有的本地数据——聊天记录、照片、语音备忘录、文档。当你问一个问题时,它可以在你个人的全部信息中进行检索和回答。
赋能更多行业:边缘部署将推动文档智能技术向更多对数据安全和实时性要求高的行业落地,如医疗(便携式诊断设备)、制造业(车间操作手册查询)、法律(移动庭审记录分析)等。
总之,未来的智能文档系统将不再是被动的数据容器,而是主动的知识伙伴。它们将更深入地理解多模态信息,更智能地进行推理和交互,并以更轻便、更普惠的方式融入我们的工作和生活。
09问答环节Q1:在大模型时代,面对存储在各个角落(如磁盘、PC 机、NAS 等)的 30 万份文档(包括不同形态的文档、图片等),我们如何处理这些数据,并将其与大模型结合?在处理过程中,我们是做了 IG(信息检索)还是训练?在 IG 过程中,使用了什么样的检索技术?
A1:首先,需要对接不同多模态的数据,把不同类型(如 OSS、HDFS、OS、本地文件夹等)的数据统一汇总到 OSS 中,同时保证表信息与非结构化数据的关联关系。
对于非结构化数据的理解,有多种模式:
多模态提取:用多模态模型提取报表中的关键词信息。
常规模式提取:对于非结构化的影印版 PDF 等,跳过大模型,用常规模式提取文本。
音频视频处理:将音频转化为文本信息。
提取后的数据经过数据清洗、切片,转化为向量后存储到向量空间,最终形成一个标准的 RAG 应用。当客户需要生成文档时,通过向量空间找到对应的切片信息,并且由于保留了与原始文件的引用关系,用户可以人工审核和修改。
在实际使用中,不是纯粹用向量距离来满足需求,会结合结构化数据(如数据库中的关键信息)来缩小范围,再通过 embedding 向量模式进行检索,针对不同场景会做不同调整。
Q2:在处理 PDF 文件或影印版文件时,通过 OCR 转换成文本,音频文件通过 ASR 转换成文本。在后续的检索中,是全部使用 embedding 算法,还是有一些文本检索?
A2:实际使用中,没办法纯粹用向量的最近距离去满足需求,会结合结构化的数据(如用户数据库中的关键信息)来缩小范围,然后再通过 embedding 向量模式进行检索。针对不同的场景会做不同的调整。
Q3:在标书、合同等文档中,有很多图片,这些图片不是文本图片,而是普通的图片,那么图文对齐是如何做到的?
A3:在对文档进行 layout 识别后,保留了对应的结构信息。例如,把扫描的 PDF 转成类似于 markdown 模式,图片所在位置信息与上面的文字有对应引用关系,在最后一行对应的文字结尾会添加对应图片的引用,这些信息会保留在数据库和向量空间中,通过这种方式实现图文对齐。
Q4:对于来自多个数据源的 30 万份文档,做了全量同步之后,后续文档有变更、删除或过时资质需要去掉,增量同步要怎么做?
A4:与客户合作的一种模式是,客户那边的独立系统新增文件时,自动同步到载入器,数据持续推送。对于删除的数据,客户可以在检索系统中直接删除,因为他们的目的只是希望在检索时不看到,而不是真正删除数据,这里面会有一些对应的对接处理。
Q5:在多模态场景下,语音和视频转写时,对于企业的专有名词(特别是企业内部的词),转写效果差,如何解决这个问题?
A5:一种处理模式是做一个行业黑话的目录列表,梳理出对应的行业黑话,罗列进去后,在转录完成后,做一些规则对应匹配。另一种方式是针对这种情况做模型的微调。
Q6:在使用深层次 AI 解决问题时,如何解决与企业实际问题之间的巨大 gap?例如在国际电商业务中,商品有特定的品牌商标,如何处理?
A6:建立自己的商品库、品牌库等,然后通过强制干预(在生成式 AI 生成后,对一一对应关系进行干预)或知识库检索(在大模型生成前,通过 prompt 告诉它品牌词、商标等信息)等方式,让大模型更好地与企业实际需求结合,这是企业自身积累的过程。
以上就是本次分享的内容,谢谢大家。
来源:DataFunTalk