摘要:将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat,它具有更快的速度和更高的准确度,在处理英语类内容时效果最佳,但对中文的处理就
将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat,它具有更快的速度和更高的准确度,在处理英语类内容时效果最佳,但对中文的处理就要差一些。
Marker 快速准确地将文档转换为 markdown、JSON、块和 HTML。
与 Llamaparse 和 Mathpix 等云服务以及其他开源工具相比,Marker 基准测试具有优势。在批处理模式下运行时,Marker 的速度明显更快,H100 的预计吞吐量为 25 页/秒。
您需要 python 3.10+ 和 PyTorch。
安装方式:
pip install marker-pdf如果要在 PDF 以外的文档上使用标记,则需要安装具有以下功能的其他依赖项:
marker_single /path/to/file.pdf您可以传入 PDF 或图像。
marker /path/to/input/foldermarker支持上面所有相同的选项。marker_single--workers是要同时运行的转换工作线程的数量。默认情况下,这是自动设置的,但您可以增加它以提高吞吐量,但代价是更多的 CPU/GPU 使用率。Marker 在峰值时每个工作人员将使用 5GB 的 VRAM,平均使用 3.5GB。NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out有关可以传递的其他参数,请参阅 class at 函数。PdfConvertermarker/converters/pdf.py
from marker.converters.extraction import ExtractionConverterfrom marker.models import create_model_dictfrom marker.config.parser import ConfigParserfrom pydantic import BaseModelclass Links(BaseModel): links: list[str] schema = Links.model_json_schemaconfig_parser = ConfigParser({ "page_schema": schema})converter = ExtractionConverter( artifact_dict=create_model_dict, config=config_parser.generate_config_dict, llm_service=config_parser.get_llm_service,)rendered = converter("FILEPATH")更多使用方式参考官方github使用文档。
来源:Github推荐官一点号
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!