Skip to content

PDF智能识别

痛点

很多研究者在整理文献时,会把几百篇 PDF 一股脑拖进 Zotero。但这些 PDF 往往没有元数据——没有标题、没有作者、没有DOI,在 Zotero 里就是一堆"无标题"的附件,根本无法管理和引用。

Zotero 自带的"通过标识符检索元数据"功能对中文文献支持很差,而且一次只能处理少量文件,几百篇 PDF 要处理很久。PDF智能识别功能专门解决这个问题:批量处理、中英文通吃、速度快。

工作原理

PDF智能识别采用多策略并行的方式,最大化识别成功率:

  1. 本地DOI提取:扫描 PDF 文件的前几页,通过正则匹配提取文档中的 DOI 号。这一步完全在本地完成,不消耗网络资源
  2. CrossRef元数据查询:如果成功提取到 DOI,直接通过 CrossRef API 获取完整的元数据(标题、作者、期刊、卷期页码等)
  3. CNKI中文识别:对于中文文献,使用 CNKI 知网的检索接口,通过标题关键词匹配元数据
  4. 中文标题智能提取:当以上方法都无法匹配时,AI 会分析 PDF 首页内容,智能提取中文标题和作者信息
  5. 5路并发处理:同时处理 5 个 PDF 文件,大幅提升批量处理速度

识别效果

  • 有 DOI 的英文论文:识别率 > 95%
  • 中文核心期刊论文:识别率 > 85%
  • 会议论文和学位论文:识别率约 60-70%,取决于文档格式

使用方法

识别单篇PDF

  1. 在 Zotero 中选中一个没有元数据的 PDF 附件
  2. 右键点击,选择 AI4Paper → PDF智能识别
  3. 等待识别完成,元数据会自动填充到条目中

批量识别

  1. 选中多个 PDF 附件(按住 Ctrl/Cmd 多选,或 Shift 连续选择)
  2. 右键点击,选择 AI4Paper → 批量PDF识别
  3. 进度条会显示当前处理进度
  4. 识别完成后,成功和失败的数量会在通知中显示

整个文件夹识别

  1. 在左侧分类树中右键点击一个文件夹
  2. 选择 AI4Paper → 识别文件夹中的PDF
  3. 系统会自动找出该文件夹下所有缺少元数据的 PDF 并批量处理

注意事项

  • 扫描版 PDF(图片格式)的识别率较低,建议先用 OCR 工具处理
  • 识别过程需要网络连接(查询 CrossRef 和 CNKI)
  • 大批量处理时(100篇以上),建议分批进行,避免请求过于频繁
  • 识别结果可能不完全准确,建议抽查确认关键文献的元数据

识别策略详解

DOI提取策略

系统会扫描 PDF 前 3 页的文本内容,使用多种正则表达式匹配 DOI 格式。支持以下常见的 DOI 呈现方式:

  • DOI: 10.xxxx/xxxxx
  • https://doi.org/10.xxxx/xxxxx
  • dx.doi.org/10.xxxx/xxxxx

CrossRef查询

通过 DOI 从 CrossRef 获取的元数据最为准确和完整,包括:

  • 标题(原文和翻译)
  • 全部作者列表
  • 期刊名称、卷号、期号、页码
  • 发表日期
  • 摘要

中文文献处理

中文文献通常没有 DOI 或者 DOI 不在 CrossRef 中。系统会:

  1. 提取 PDF 中的中文标题
  2. 在 CNKI 中搜索匹配
  3. 获取知网收录的元数据

常见问题

Q: 识别后原来的PDF文件会改变吗?

不会。识别只是补充元数据信息,PDF 文件本身不会被修改。

Q: 识别错误怎么办?

可以手动编辑条目信息进行修正,也可以删除元数据后重新识别。

Q: 一次最多能处理多少篇?

技术上没有数量限制,但建议每次不超过 200 篇。5路并发处理 200 篇大约需要 5-10 分钟。

Q: 会消耗AI配额吗?

DOI 提取和 CrossRef 查询不消耗 AI 配额。只有当需要 AI 分析 PDF 内容提取标题时,才会消耗少量配额。

让天下没有难读的 Paper,让天下没有难做的科研