PDF 识别与整理
痛点
电脑里散落着大量从各种渠道下载的 PDF 论文——有的在下载文件夹,有的在桌面,文件名还是乱码或一串数字。手动逐个导入 Zotero、识别元数据、规范命名,几百篇论文要花上几个小时。
更让人头疼的是,很多 PDF 拖进 Zotero 后变成"无标题"附件,没有作者、没有 DOI,根本无法管理和引用。Zotero 自带的元数据检索对中文文献支持有限,批量处理效率也不高。
AI4Paper 提供一站式 PDF 整理方案:从文件夹扫描、元数据智能识别、批量导入到规范命名,全流程自动化。
核心能力
PDF 文献整理器 — 批量扫描导入
在 AI4Paper 设置中配置好 PDF 文件夹路径,一键扫描整个目录(含 3 级子目录),自动提取元数据、导入 Zotero 并按规则重命名文件。

配置说明:
- PDF 文件夹:待整理 PDF 所在的目录
- 归档文件夹:整理后 PDF 的存放目录
- 命名格式:支持自定义模板,灵活组合作者、年份、标题、期刊等信息
| 占位符 | 含义 | 示例 |
|---|---|---|
%a | 第一作者姓 | Wang |
%y | 发表年份 | 2024 |
%t | 标题 | Deep Learning for... |
%j | 期刊名 | Nature |
{...} | 条件组(有值才显示) | {%j_} |
默认模板 {%a_}{%y_}{%t} → Wang_2024_Deep Learning for Medical Imaging.pdf
配置完成后,点击 「导入 PDF 到 Zotero 库」 即可开始批量处理。
PDF 智能识别 — 补全元数据
对于已经在 Zotero 中但缺少元数据的 PDF 附件,AI4Paper 提供智能识别功能,综合多种识别策略自动补全完整元数据。
支持的识别能力:
- 自动提取 PDF 中的 DOI 并查询完整元数据
- 中文文献标题智能提取与匹配
- 多并发处理,批量识别速度快
- 中英文论文通吃,覆盖率高
使用方法:
- 选中缺少元数据的 PDF 附件(支持多选)
- 右键 → AI4Paper → 基础工具 → 识别 PDF 元数据
- 等待识别完成,元数据自动填充
识别效果
- 有 DOI 的英文论文:识别率 > 95%
- 中文核心期刊论文:识别率 > 85%
- 会议论文和学位论文:识别率约 60-70%
智能整理工具箱
导入和识别只是第一步。AI4Paper 还提供一整套文献库清理工具,帮你保持 Zotero 文献库干净整洁:

- 智能去重:自动发现并合并重复条目
- 清理空壳条目:删除没有附件也没有内容的空条目
- 清理孤立附件:清理失去父条目关联的孤立文件
- 清理损坏附件:检测并清理无法打开的损坏文件
- 过滤低质量来源:识别并标记低质量期刊来源的文献
- 一键全面整理:以上所有清理操作一键执行
- 快速打标签 / AI 打标签:手动或 AI 自动为文献添加分类标签
- 合并同名文件夹:合并名称相同的分类文件夹
- 未分类条目归类:将未分类的文献自动归入合适的文件夹
推荐工作流
批量导入 → 智能识别 → 一键整理 → 打标签归类,从一堆散乱 PDF 到一个结构清晰、元数据完整的文献库,全程自动化。
常见问题
Q: 原始 PDF 文件会被修改或删除吗?
不会。PDF 整理器默认是复制到 Zotero 存储目录,原始文件不受影响。识别功能只补充元数据,不修改 PDF 文件本身。
Q: 支持中文论文吗?
支持。中文 PDF 会通过标题智能匹配获取元数据,中文核心期刊识别率 > 85%。
Q: 一次最多能处理多少篇?
技术上没有数量限制,但建议每次不超过 200 篇。多并发处理 200 篇大约需要 5-10 分钟。
Q: 会消耗 AI 配额吗?
常规的 DOI 提取和元数据查询不消耗 AI 配额。只有当需要 AI 分析 PDF 内容提取标题时,才会消耗少量配额。智能整理工具箱的操作也不消耗 AI 配额(AI 打标签除外)。
Q: 已在 Zotero 中的 PDF 会重复导入吗?
不会。AI4Paper 会自动检测已存在的条目,跳过重复文献。
