一个标星27.5k智能AI Markdown转换工具:marker

摘要：将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat，它具有更快的速度和更高的准确度，在处理英语类内容时效果最佳，但对中文的处理就

将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat，它具有更快的速度和更高的准确度，在处理英语类内容时效果最佳，但对中文的处理就要差一些。

Marker 快速准确地将文档转换为 markdown、JSON、块和 HTML。

与 Llamaparse 和 Mathpix 等云服务以及其他开源工具相比，Marker 基准测试具有优势。在批处理模式下运行时，Marker 的速度明显更快，H100 的预计吞吐量为 25 页/秒。

您需要 python 3.10+ 和 PyTorch。

安装方式：

pip install marker-pdf

如果要在 PDF 以外的文档上使用标记，则需要安装具有以下功能的其他依赖项：

marker_single /path/to/file.pdf

您可以传入 PDF 或图像。

marker /path/to/input/foldermarker支持上面所有相同的选项。marker_single--workers是要同时运行的转换工作线程的数量。默认情况下，这是自动设置的，但您可以增加它以提高吞吐量，但代价是更多的 CPU/GPU 使用率。Marker 在峰值时每个工作人员将使用 5GB 的 VRAM，平均使用 3.5GB。NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out

有关可以传递的其他参数，请参阅 class at 函数。PdfConvertermarker/converters/pdf.py

from marker.converters.extraction import ExtractionConverterfrom marker.models import create_model_dictfrom marker.config.parser import ConfigParserfrom pydantic import BaseModelclass Links(BaseModel): links: list[str] schema = Links.model_json_schemaconfig_parser = ConfigParser({ "page_schema": schema})converter = ExtractionConverter( artifact_dict=create_model_dict, config=config_parser.generate_config_dict, llm_service=config_parser.get_llm_service,)rendered = converter("FILEPATH")

更多使用方式参考官方github使用文档。

来源：Github推荐官一点号

标签： markdown mar marker aimarkdown

本文地址：http://news.43b.com.cn/a/764546.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!