PDF智能识别

痛点

很多研究者在整理文献时，会把几百篇 PDF 一股脑拖进 Zotero。但这些 PDF 往往没有元数据——没有标题、没有作者、没有DOI，在 Zotero 里就是一堆"无标题"的附件，根本无法管理和引用。

Zotero 自带的"通过标识符检索元数据"功能对中文文献支持很差，而且一次只能处理少量文件，几百篇 PDF 要处理很久。PDF智能识别功能专门解决这个问题：批量处理、中英文通吃、速度快。

工作原理

PDF智能识别采用多策略并行的方式，最大化识别成功率：

本地DOI提取：扫描 PDF 文件的前几页，通过正则匹配提取文档中的 DOI 号。这一步完全在本地完成，不消耗网络资源
CrossRef元数据查询：如果成功提取到 DOI，直接通过 CrossRef API 获取完整的元数据（标题、作者、期刊、卷期页码等）
CNKI中文识别：对于中文文献，使用 CNKI 知网的检索接口，通过标题关键词匹配元数据
中文标题智能提取：当以上方法都无法匹配时，AI 会分析 PDF 首页内容，智能提取中文标题和作者信息
5路并发处理：同时处理 5 个 PDF 文件，大幅提升批量处理速度

识别效果

有 DOI 的英文论文：识别率 > 95%
中文核心期刊论文：识别率 > 85%
会议论文和学位论文：识别率约 60-70%，取决于文档格式

使用方法

识别单篇PDF

在 Zotero 中选中一个没有元数据的 PDF 附件
右键点击，选择 AI4Paper → PDF智能识别
等待识别完成，元数据会自动填充到条目中

批量识别

选中多个 PDF 附件（按住 Ctrl/Cmd 多选，或 Shift 连续选择）
右键点击，选择 AI4Paper → 批量PDF识别
进度条会显示当前处理进度
识别完成后，成功和失败的数量会在通知中显示

整个文件夹识别

在左侧分类树中右键点击一个文件夹
选择 AI4Paper → 识别文件夹中的PDF
系统会自动找出该文件夹下所有缺少元数据的 PDF 并批量处理

注意事项

扫描版 PDF（图片格式）的识别率较低，建议先用 OCR 工具处理
识别过程需要网络连接（查询 CrossRef 和 CNKI）
大批量处理时（100篇以上），建议分批进行，避免请求过于频繁
识别结果可能不完全准确，建议抽查确认关键文献的元数据

识别策略详解

DOI提取策略

系统会扫描 PDF 前 3 页的文本内容，使用多种正则表达式匹配 DOI 格式。支持以下常见的 DOI 呈现方式：

DOI: 10.xxxx/xxxxx
https://doi.org/10.xxxx/xxxxx
dx.doi.org/10.xxxx/xxxxx

CrossRef查询

通过 DOI 从 CrossRef 获取的元数据最为准确和完整，包括：

标题（原文和翻译）
全部作者列表
期刊名称、卷号、期号、页码
发表日期
摘要

中文文献处理

中文文献通常没有 DOI 或者 DOI 不在 CrossRef 中。系统会：

提取 PDF 中的中文标题
在 CNKI 中搜索匹配
获取知网收录的元数据

常见问题

Q: 识别后原来的PDF文件会改变吗？

不会。识别只是补充元数据信息，PDF 文件本身不会被修改。

Q: 识别错误怎么办？

可以手动编辑条目信息进行修正，也可以删除元数据后重新识别。

Q: 一次最多能处理多少篇？

技术上没有数量限制，但建议每次不超过 200 篇。5路并发处理 200 篇大约需要 5-10 分钟。

Q: 会消耗AI配额吗？

DOI 提取和 CrossRef 查询不消耗 AI 配额。只有当需要 AI 分析 PDF 内容提取标题时，才会消耗少量配额。

PDF智能识别 ​

痛点 ​

工作原理 ​

使用方法 ​

识别单篇PDF ​

批量识别 ​

整个文件夹识别 ​

识别策略详解 ​

DOI提取策略 ​

CrossRef查询 ​

中文文献处理 ​

常见问题 ​