摘要:法国AI创业公司Mistral AI本周发布光学字符识别(OCR)API,名为Mistral OCR,以加速文件数字化作业,并号称性能超越Gemini 1.5、GPT-4o。
法国AI创业公司Mistral AI本周发布光学字符识别(OCR)API,名为Mistral OCR,以加速文件数字化作业,并号称性能超越Gemini 1.5、GPT-4o。
Mistral AI指出,Mistral OCR不同其他模型,能以超越以往的精确性和认知能力来理解文件的每一种元素,包括影音、图片、表格、文本、数学方程式或高端版型如LaTex格式。因此即使是包含图表、方程式和数字、图形的科学论文这类丰富文件,Mistral OCR也能深切理解。
在输入端,Mistral API可支持文本、图片、PDF,以及图文交错的文件,并从中截取出内容。因此Mistral OCR很适合结合检索增强生成(retrieval-augmented generation,RAG)系统来处理多模态文件(像是演示文稿或复杂的PDF)。它还支持文件为提示(document as prompt)的处理,让用户可以从文件截取出特定资讯,再套用格式加入到结构化输出中,例如JSON。用户可将截取出的输出灌注到下游函数调用,开发代理人。
Mistral AI也比较了新的Mistral OCR与Google Document AI、Azure OCR、Gemini 1.5、GPT-4o,显示不论是在理解数学、多语、表格及扫描内容上都优于竞争对手。此外,Mistral OCR号称速度业界最快,单一节点每分钟可处理2,000页。
可能的应用场景包括科学研究数字化、历史文化保存、提升客服效率、以及将纸质文件预处理以供AI处理等。
Mistral OCR已是Mistral聊天机器人Le Chat理解文件任务的默认模型,现在则通过API mistral-ocr-latest开放,代价为1美元1,000页,如果是批次推论任务,则1元可处理近2,000页。
现在Mistral API可在la Plateforme上向开发人员开放。Mistral AI计划很快会将之推向Mistral AI的云计算或第三方推论服务伙伴平台,以及允许部分客户在本地部署环境上执行。图片来源/Mistral AI
来源:十轮网