Skip to content

知识库问答

前面讲的 阅读辅助一篇 PDF 一篇 PDF 聊。但如果你已经攒了几十上百篇文献,想问"我这批文献里,谁谈到了 XXX?"——一篇篇翻就太慢了。

知识库问答就是解决这个:把一整个分类(几十、几百篇论文)一次性"喂"给 AI,之后你用中文/英文随便问,AI 读完相关片段再回答,并且告诉你引用的是哪几篇

一句话

阅读辅助 = 和一篇 PDF 聊 · 知识库问答 = 和一整个分类(一批文献)聊。

一、先理解:什么是 RAG?(30 秒版)

知识库底层用的是 RAG(检索增强生成)。流程:

  1. 建索引(一次性):AI4Paper 把你这个分类下每篇文献的 PDF 正文切成一小段一小段("片段"),转成向量存到本地数据库
  2. 你问问题:比如"AIGC 对生产力的影响有哪些实证证据"
  3. 语义检索:AI4Paper 从刚才的向量库里找出最相关的几段(可能来自 3-5 篇不同的论文)
  4. AI 读片段再回答:把找到的片段 + 你的问题一起扔给主 AI,它只基于这些片段回答,并给出引用标注

好处

  • 不会胡编(只用检索到的片段,不凭"我猜")
  • 每个结论都能追溯到原文位置,点一下就能定位到 PDF 的对应条目
  • 比一篇一篇问快 10 倍

二、界面总览

打开知识库问答窗口长这样:

知识库问答界面

三栏结构:

2.1 左栏 · 知识库列表

一个 Zotero 分类 = 一个知识库。图上这台机器有 5 个:

知识库已索引片段数
全部知识库251(所有知识库合并查询)
1269 个片段
33317 个片段
MANAGEME...(当前选中)134 个片段
哈哈9 个片段
有笔记的文献33 个片段

点一个就切换到那个知识库提问。想跨库一起问就点"全部知识库"。

2.2 中栏 · 引用来源

AI 每次回答后,用到哪些文献片段都在这里列出来——图上这次答案用了 2 篇:

  • The Effects of Generative AI on High-Skilled Work(摘要,相似度 0.06)
  • Does Corporate Tax Planning Affect Firm Productivity?(摘要,相似度 0.06)

每条下面两个按钮:

  • 打开 PDF → 直接跳到 Zotero 阅读器打开这篇
  • 定位条目 → 跳到 Zotero 文库里选中这篇

验证 AI 回答真伪的利器:它说的每一点你都能点进原文核对。

"相似度 0.06" 是好是坏?

这是向量距离,数值越小越相关(不是越大越相关)。0.06 属于非常相关。超过 0.3 一般就有点远了。

2.3 右栏 · 对话区

就是和 ChatGPT 差不多的聊天框:

  • 顶部:当前知识库名(图上是 MANAGEMENT SCIENCE)+ 对话轮数 + 就绪状态
  • 消息流:你的问题 / AI 回答(带 Markdown 格式、编号引用 [1] [2] 对应中栏来源)
  • 底部输入框:输入问题,Enter 发送 · Shift+Enter 换行
  • 右下角状态栏134 篇文献 · 134 个片段已索引

2.4 顶部工具栏

  • 🤖 AI 配置:切换这次问答用哪个模型(继承主 AI,也可以临时换)
  • 📁 选文件夹:在知识库之间切换(和左栏等价)
  • ⚡ 建立索引:首次对分类建库、或者分类里新加了文献后重建/增量
  • 关闭:关窗口

三、使用流程:从零到第一次问答

3.1 准备一个分类

先在 Zotero 里有一个你真正想深问的分类——比如前面 领域新文监控 拉下来的 MANAGEMENT SCIENCE 有 134 篇论文,就是天然的知识库素材。

知识库至少要有 PDF

纯元数据(标题+摘要)也能索引,但最好的效果是有 PDF 全文。先用**下载附件(多源)**把 PDF 抓全,再建索引。

3.2 打开知识库问答

顶部工具栏点 📚 知识库 按钮(文献工作台 里讲过的那 5 个蓝色按钮之一)→ 弹出图上的窗口。

3.3 首次索引

  • 左栏选你的分类(或点顶部 📁 选文件夹 挑)
  • ⚡ 建立索引
  • 后台开始给这个分类每篇文献的 PDF 正文做分片 + 向量化
  • 时间开销:100 篇文献大约 1-5 分钟(取决于你的嵌入模型服务商和文献大小)
  • 首次建完,之后问答秒级响应,不用再等

嵌入模型就是做这一步向量化的模型。详见 配置 AI 服务 → 嵌入模型

3.4 提问

索引建好后,右栏输入问题。比如:

  • 人工智能对生产力的影响有什么实证证据?
  • 这 134 篇里哪几篇用了 RCT 实验设计?
  • 作者们对 AIGC 的负面影响有什么担忧?
  • 列一下被引次数最多的 5 篇

AI 会:

  • 从索引里先检索相关片段
  • 把片段 + 你的问题扔给主 AI
  • 按 Markdown 格式回答,每个结论带 [1] [2] 这样的编号
  • 中栏同步显示这几个编号对应的原文片段

3.5 追问和深挖

  • 继续在对话里追问,AI 记得上下文
  • 想看原文 → 点中栏的"打开 PDF"
  • 怀疑 AI 说得不对 → 点"定位条目"去 Zotero 核对
  • 换个知识库接着问 → 左栏切换

四、多知识库管理

一个 Zotero 用户通常会同时维护几个知识库:

分类 / 知识库用途
MANAGEMENT SCIENCE(手动期刊监控)跟某本顶刊的所有论文对话
AIGC 教师倦怠(AI 推荐监控)聚焦某个研究方向
我的出版物自己发表过的论文库
综述-XXX 课题为写某个综述专门攒的 50 篇
全部知识库不知道在哪个库 / 想跨库找时

每个库单独索引、单独问答,互不干扰。每次新增了一批文献后,点 ⚡ 建立索引 增量更新就行(只新索引加进来的片段,不会全部重来)。

五、典型场景

5.1 开题调研

100 篇文献一起问"有哪些研究的空白点还没被覆盖?",AI 在全库里交叉检索,比自己翻效率高 10 倍。

5.2 找 gap

"列出作者们提到的"未来研究方向""——AI 能把不同论文 Discussion 章节的 Limitations / Future Work 汇总出来,写 proposal 直接能用。

5.3 写综述

问思路("主要研究方法有几类"),再问论据("用 XXX 方法的代表性论文是哪几篇"),最后汇总到笔记里。比对着 Zotero 一篇篇翻高效得多。

5.4 论文答辩备稿

临答辩前问自己这个领域的经典论文,AI 基于你攒的知识库回答——专属于你课题的"补刀"。

六、FAQ

Q1: 为啥建立索引一直转圈不完?

A: 可能原因按概率排序:

  • PDF 没下全:知识库索引的是 PDF 正文,没 PDF 的只能索引标题+摘要。先右键分类→**下载附件(多源)**把 PDF 补齐
  • 嵌入模型没配对:设置页的嵌入模型默认「跟随主 AI」,但某些主 AI 不带嵌入接口。去 AI 服务配置 单独给嵌入填一个(阿里 text-embedding-v3、OpenAI text-embedding-3-small 都行)
  • 网络问题:嵌入走的是你选的服务商的 API,走不通就会一直转。换个网络 / VPN

Q2: 能问中文问题吗?英文文献也能答?

A: 能。中文提问 + 英文文献 + 中文回答 是最常见组合。向量检索对跨语言友好,大多数主流嵌入模型都支持。

Q3: AI 回答里出现"文献 [2] 主要讨论 XXX, 与本问题无直接关系"咋回事?

A: 图上就有这种情况——这其实是好事。说明 AI 没被"硬塞进来"的低相关片段带偏,而是明确告诉你这一段其实没用。RAG 系统诚实的表现。

Q4: 知识库数据存哪?隐私安全吗?

A:

  • 向量索引:存在你本机 Zotero 数据目录下的 SQLite 库里,不上传云端
  • 每次问答问题 + 检索到的片段会发给主 AI(OpenAI / 通义 / DeepSeek / 本地 Ollama……看你配置)。完全离线的话用 Ollama + 本地嵌入模型
  • PDF 原文始终在本地,不走云

Q5: 建一次索引消耗多少钱?

A: 嵌入比主 AI 便宜一个数量级。100 篇平均 15 页的文献,总片段数约 3000 个,用阿里 text-embedding-v3 总成本 ¥0.01 左右。基本可忽略。

Q6: 我删了文献/改了文献,知识库会自动更新吗?

A: 不会自动。**手动点一下「建立索引」**即可增量处理(它能识别哪些是新/改的)。

Q7: "全部知识库 251" 是啥意思?

A: 所有知识库合并。跨库查询时用。不知道答案在哪个分类里就用它。


读文献侧到这里就齐了:阅读辅助(逐篇精读)+ 知识库问答(整批扫一遍)覆盖 95% 的论文阅读场景

写综述的时候,知识库配合 专业综述与研究发现 用最爽——基于你这批文献直接出带引用的综述报告。

让天下没有难读的 Paper,让天下没有难做的科研