一个标星27.5k智能AI Markdown转换工具:marker

B站影视 电影资讯 2025-08-15 15:00 1

摘要:将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat,它具有更快的速度和更高的准确度,在处理英语类内容时效果最佳,但对中文的处理就

将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat,它具有更快的速度和更高的准确度,在处理英语类内容时效果最佳,但对中文的处理就要差一些。

Marker 快速准确地将文档转换为 markdown、JSON、块和 HTML。

与 Llamaparse 和 Mathpix 等云服务以及其他开源工具相比,Marker 基准测试具有优势。在批处理模式下运行时,Marker 的速度明显更快,H100 的预计吞吐量为 25 页/秒。

您需要 python 3.10+ 和 PyTorch。

安装方式:

pip install marker-pdf

如果要在 PDF 以外的文档上使用标记,则需要安装具有以下功能的其他依赖项:

marker_single /path/to/file.pdf

您可以传入 PDF 或图像。

marker /path/to/input/foldermarker支持上面所有相同的选项。marker_single--workers是要同时运行的转换工作线程的数量。默认情况下,这是自动设置的,但您可以增加它以提高吞吐量,但代价是更多的 CPU/GPU 使用率。Marker 在峰值时每个工作人员将使用 5GB 的 VRAM,平均使用 3.5GB。NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out

有关可以传递的其他参数,请参阅 class at 函数。PdfConvertermarker/converters/pdf.py

from marker.converters.extraction import ExtractionConverterfrom marker.models import create_model_dictfrom marker.config.parser import ConfigParserfrom pydantic import BaseModelclass Links(BaseModel): links: list[str] schema = Links.model_json_schemaconfig_parser = ConfigParser({ "page_schema": schema})converter = ExtractionConverter( artifact_dict=create_model_dict, config=config_parser.generate_config_dict, llm_service=config_parser.get_llm_service,)rendered = converter("FILEPATH")

更多使用方式参考官方github使用文档。

来源:Github推荐官一点号

相关推荐