PDF 识别与整理

痛点

电脑里散落着大量从各种渠道下载的 PDF 论文——有的在下载文件夹，有的在桌面，文件名还是乱码或一串数字。手动逐个导入 Zotero、识别元数据、规范命名，几百篇论文要花上几个小时。

更让人头疼的是，很多 PDF 拖进 Zotero 后变成"无标题"附件，没有作者、没有 DOI，根本无法管理和引用。Zotero 自带的元数据检索对中文文献支持有限，批量处理效率也不高。

AI4Paper 提供一站式 PDF 整理方案：从文件夹扫描、元数据智能识别、批量导入到规范命名，全流程自动化。

核心能力

PDF 文献整理器 — 批量扫描导入

在 AI4Paper 设置中配置好 PDF 文件夹路径，一键扫描整个目录（含 3 级子目录），自动提取元数据、导入 Zotero 并按规则重命名文件。

PDF 文献整理配置

配置说明：

PDF 文件夹：待整理 PDF 所在的目录
归档文件夹：整理后 PDF 的存放目录
命名格式：支持自定义模板，灵活组合作者、年份、标题、期刊等信息

占位符	含义	示例
`%a`	第一作者姓	Wang
`%y`	发表年份	2024
`%t`	标题	Deep Learning for...
`%j`	期刊名	Nature
`{...}`	条件组（有值才显示）	{%j_}

默认模板 {%a_}{%y_}{%t} → Wang_2024_Deep Learning for Medical Imaging.pdf

配置完成后，点击 「导入 PDF 到 Zotero 库」 即可开始批量处理。

PDF 智能识别 — 补全元数据

对于已经在 Zotero 中但缺少元数据的 PDF 附件，AI4Paper 提供智能识别功能，综合多种识别策略自动补全完整元数据。

支持的识别能力：

自动提取 PDF 中的 DOI 并查询完整元数据
中文文献标题智能提取与匹配
多并发处理，批量识别速度快
中英文论文通吃，覆盖率高

使用方法：

选中缺少元数据的 PDF 附件（支持多选）
右键 → AI4Paper → 基础工具 → 识别 PDF 元数据
等待识别完成，元数据自动填充

识别效果

有 DOI 的英文论文：识别率 > 95%
中文核心期刊论文：识别率 > 85%
会议论文和学位论文：识别率约 60-70%

智能整理工具箱

导入和识别只是第一步。AI4Paper 还提供一整套文献库清理工具，帮你保持 Zotero 文献库干净整洁：

智能去重：自动发现并合并重复条目
清理空壳条目：删除没有附件也没有内容的空条目
清理孤立附件：清理失去父条目关联的孤立文件
清理损坏附件：检测并清理无法打开的损坏文件
过滤低质量来源：识别并标记低质量期刊来源的文献
一键全面整理：以上所有清理操作一键执行
快速打标签 / AI 打标签：手动或 AI 自动为文献添加分类标签
合并同名文件夹：合并名称相同的分类文件夹
未分类条目归类：将未分类的文献自动归入合适的文件夹

推荐工作流

批量导入 → 智能识别 → 一键整理 → 打标签归类，从一堆散乱 PDF 到一个结构清晰、元数据完整的文献库，全程自动化。

常见问题

Q: 原始 PDF 文件会被修改或删除吗？

不会。PDF 整理器默认是复制到 Zotero 存储目录，原始文件不受影响。识别功能只补充元数据，不修改 PDF 文件本身。

Q: 支持中文论文吗？

支持。中文 PDF 会通过标题智能匹配获取元数据，中文核心期刊识别率 > 85%。

Q: 一次最多能处理多少篇？

技术上没有数量限制，但建议每次不超过 200 篇。多并发处理 200 篇大约需要 5-10 分钟。

Q: 会消耗 AI 配额吗？

常规的 DOI 提取和元数据查询不消耗 AI 配额。只有当需要 AI 分析 PDF 内容提取标题时，才会消耗少量配额。智能整理工具箱的操作也不消耗 AI 配额（AI 打标签除外）。

Q: 已在 Zotero 中的 PDF 会重复导入吗？

不会。AI4Paper 会自动检测已存在的条目，跳过重复文献。

PDF 识别与整理 ​

痛点 ​

核心能力 ​

PDF 文献整理器 — 批量扫描导入 ​

PDF 智能识别 — 补全元数据 ​

智能整理工具箱 ​

常见问题 ​