返回市场
<中文翻译>
mcp-pdf转md服务器

<中文翻译> mcp-pdf转md服务器

作者:FutureUnreal19 星标更新:2025-03-25

项目介绍

MCP-PDF2MD

smithery 徽章 English | 中文

MCP-PDF2MD 服务

基于MCP的高性能PDF到Markdown转换服务,由MinerU API提供支持,支持本地文件和URL链接的批量处理,并生成结构化输出。

主要特性

  • 格式转换:将PDF文件转换为结构化的Markdown格式。
  • 多源支持:处理本地PDF文件和URL链接。
  • 智能处理:自动选择最佳处理方法。
  • 批量处理:支持多文件批量转换,高效处理大量PDF文件。
  • MCP集成:与Claude Desktop等LLM客户端无缝集成。
  • 结构保存:保持原始文档结构,包括标题、段落、列表等。
  • 智能布局:以人类可读顺序输出文本,适用于单列、多列和复杂布局。
  • 公式转换:自动识别并转换文档中的公式为LaTeX格式。
  • 表格提取:自动识别并转换文档中的表格为结构化格式。
  • 清理优化:移除页眉、页脚、脚注、页码等,确保语义连贯性。
  • 高质量提取:从PDF文档中高质量地提取文本、图像和布局信息。

系统需求

  • 软件:Python 3.10+

快速开始

  1. 克隆仓库并进入目录:

    git clone https://github.com/FutureUnreal/mcp-pdf2md.git
    cd mcp-pdf2md
    
  2. 创建虚拟环境并安装依赖:

    Linux/macOS:

    uv venv
    source .venv/bin/activate
    uv pip install -e .
    

    Windows:

    uv venv
    .venv\Scripts\activate
    uv pip install -e .
    
  3. 配置环境变量:

    在项目根目录创建一个.env文件,并设置以下环境变量:

    MINERU_API_BASE=https://mineru.net/api/v4/extract/task
    MINERU_BATCH_API=https://mineru.net/api/v4/extract/task/batch
    MINERU_BATCH_RESULTS_API=https://mineru.net/api/v4/extract-results/batch
    MINERU_API_KEY=your_api_key_here
    
  4. 启动服务:

    uv run pdf2md
    

命令行参数

服务器支持以下命令行参数:

Claude Desktop 配置

在Claude Desktop中添加以下配置:

Windows:

{
    "mcpServers": {
        "pdf2md": {
            "command": "uv",
            "args": [
                "--directory",
                "C:\\path\\to\\mcp-pdf2md",
                "run",
                "pdf2md",
                "--output-dir",
                "C:\\path\\to\\output"
            ],
            "env": {
                "MINERU_API_KEY": "your_api_key_here"
            }
        }
    }
}

Linux/macOS:

{
    "mcpServers": {
        "pdf2md": {
            "command": "uv",
            "args": [
                "--directory",
                "/path/to/mcp-pdf2md",
                "run",
                "pdf2md",
                "--output-dir",
                "/path/to/output"
            ],
            "env": {
                "MINERU_API_KEY": "your_api_key_here"
            }
        }
    }
}

关于API密钥配置的注意事项: 你可以通过两种方式设置API密钥:

  1. 在项目目录内的.env文件中(推荐用于开发)
  2. 如上所示,在Claude Desktop配置中(推荐用于常规使用)

如果你在两个地方都设置了API密钥,那么Claude Desktop配置中的密钥会优先使用。

MCP工具

服务器提供了以下MCP工具:

  • convert_pdf_url: 将PDF URL转换为Markdown
  • convert_pdf_file: 将本地PDF文件转换为Markdown

获取MinerU API密钥

本项目依赖于MinerU API进行PDF内容提取。获取API密钥的方法如下:

  1. 访问MinerU官方网站并注册账户
  2. 登录后,通过此链接申请API测试资格
  3. 申请被批准后,可以访问API管理页面
  4. 按照提供的说明生成你的API密钥
  5. 复制生成的API密钥
  6. 使用此字符串作为MINERU_API_KEY的值

请注意,访问MinerU API目前处于测试阶段,需要获得MinerU团队的批准。审批过程可能需要一些时间,请提前做好计划。

示例

输入PDF

输入PDF

输出Markdown

输出Markdown

许可证

MIT许可证 - 详情见LICENSE文件。

致谢

本项目基于MinerU的API。