PDF智能识别
痛点
很多研究者在整理文献时,会把几百篇 PDF 一股脑拖进 Zotero。但这些 PDF 往往没有元数据——没有标题、没有作者、没有DOI,在 Zotero 里就是一堆"无标题"的附件,根本无法管理和引用。
Zotero 自带的"通过标识符检索元数据"功能对中文文献支持很差,而且一次只能处理少量文件,几百篇 PDF 要处理很久。PDF智能识别功能专门解决这个问题:批量处理、中英文通吃、速度快。
工作原理
PDF智能识别采用多策略并行的方式,最大化识别成功率:
- 本地DOI提取:扫描 PDF 文件的前几页,通过正则匹配提取文档中的 DOI 号。这一步完全在本地完成,不消耗网络资源
- CrossRef元数据查询:如果成功提取到 DOI,直接通过 CrossRef API 获取完整的元数据(标题、作者、期刊、卷期页码等)
- CNKI中文识别:对于中文文献,使用 CNKI 知网的检索接口,通过标题关键词匹配元数据
- 中文标题智能提取:当以上方法都无法匹配时,AI 会分析 PDF 首页内容,智能提取中文标题和作者信息
- 5路并发处理:同时处理 5 个 PDF 文件,大幅提升批量处理速度
识别效果
- 有 DOI 的英文论文:识别率 > 95%
- 中文核心期刊论文:识别率 > 85%
- 会议论文和学位论文:识别率约 60-70%,取决于文档格式
使用方法
识别单篇PDF
- 在 Zotero 中选中一个没有元数据的 PDF 附件
- 右键点击,选择 AI4Paper → PDF智能识别
- 等待识别完成,元数据会自动填充到条目中
批量识别
- 选中多个 PDF 附件(按住 Ctrl/Cmd 多选,或 Shift 连续选择)
- 右键点击,选择 AI4Paper → 批量PDF识别
- 进度条会显示当前处理进度
- 识别完成后,成功和失败的数量会在通知中显示
整个文件夹识别
- 在左侧分类树中右键点击一个文件夹
- 选择 AI4Paper → 识别文件夹中的PDF
- 系统会自动找出该文件夹下所有缺少元数据的 PDF 并批量处理
注意事项
- 扫描版 PDF(图片格式)的识别率较低,建议先用 OCR 工具处理
- 识别过程需要网络连接(查询 CrossRef 和 CNKI)
- 大批量处理时(100篇以上),建议分批进行,避免请求过于频繁
- 识别结果可能不完全准确,建议抽查确认关键文献的元数据
识别策略详解
DOI提取策略
系统会扫描 PDF 前 3 页的文本内容,使用多种正则表达式匹配 DOI 格式。支持以下常见的 DOI 呈现方式:
DOI: 10.xxxx/xxxxxhttps://doi.org/10.xxxx/xxxxxdx.doi.org/10.xxxx/xxxxx
CrossRef查询
通过 DOI 从 CrossRef 获取的元数据最为准确和完整,包括:
- 标题(原文和翻译)
- 全部作者列表
- 期刊名称、卷号、期号、页码
- 发表日期
- 摘要
中文文献处理
中文文献通常没有 DOI 或者 DOI 不在 CrossRef 中。系统会:
- 提取 PDF 中的中文标题
- 在 CNKI 中搜索匹配
- 获取知网收录的元数据
常见问题
Q: 识别后原来的PDF文件会改变吗?
不会。识别只是补充元数据信息,PDF 文件本身不会被修改。
Q: 识别错误怎么办?
可以手动编辑条目信息进行修正,也可以删除元数据后重新识别。
Q: 一次最多能处理多少篇?
技术上没有数量限制,但建议每次不超过 200 篇。5路并发处理 200 篇大约需要 5-10 分钟。
Q: 会消耗AI配额吗?
DOI 提取和 CrossRef 查询不消耗 AI 配额。只有当需要 AI 分析 PDF 内容提取标题时,才会消耗少量配额。
