知识库问答

前面讲的阅读辅助是一篇 PDF 一篇 PDF 聊。但如果你已经攒了几十上百篇文献，想问"我这批文献里，谁谈到了 XXX？"——一篇篇翻就太慢了。

知识库问答就是解决这个：把一整个分类（几十、几百篇论文）一次性"喂"给 AI，之后你用中文/英文随便问，AI 读完相关片段再回答，并且告诉你引用的是哪几篇。

一句话

阅读辅助 = 和一篇 PDF 聊 · 知识库问答 = 和一整个分类（一批文献）聊。

一、先理解：什么是 RAG？（30 秒版）

知识库底层用的是 RAG（检索增强生成）。流程：

建索引（一次性）：AI4Paper 把你这个分类下每篇文献的 PDF 正文切成一小段一小段（"片段"），转成向量存到本地数据库
你问问题：比如"AIGC 对生产力的影响有哪些实证证据"
语义检索：AI4Paper 从刚才的向量库里找出最相关的几段（可能来自 3-5 篇不同的论文）
AI 读片段再回答：把找到的片段 + 你的问题一起扔给主 AI，它只基于这些片段回答，并给出引用标注

好处：

不会胡编（只用检索到的片段，不凭"我猜"）
每个结论都能追溯到原文位置，点一下就能定位到 PDF 的对应条目
比一篇一篇问快 10 倍

二、界面总览

打开知识库问答窗口长这样：

知识库问答界面

三栏结构：

2.1 左栏 · 知识库列表

一个 Zotero 分类 = 一个知识库。图上这台机器有 5 个：

知识库	已索引片段数
全部知识库	251（所有知识库合并查询）
`1`	269 个片段
`333`	17 个片段
`MANAGEME...`（当前选中）	134 个片段
`哈哈`	9 个片段
`有笔记的文献`	33 个片段

点一个就切换到那个知识库提问。想跨库一起问就点"全部知识库"。

2.2 中栏 · 引用来源

AI 每次回答后，用到哪些文献片段都在这里列出来——图上这次答案用了 2 篇：

The Effects of Generative AI on High-Skilled Work（摘要，相似度 0.06）
Does Corporate Tax Planning Affect Firm Productivity?（摘要，相似度 0.06）

每条下面两个按钮：

打开 PDF → 直接跳到 Zotero 阅读器打开这篇
定位条目 → 跳到 Zotero 文库里选中这篇

验证 AI 回答真伪的利器：它说的每一点你都能点进原文核对。

"相似度 0.06" 是好是坏？

这是向量距离，数值越小越相关（不是越大越相关）。0.06 属于非常相关。超过 0.3 一般就有点远了。

2.3 右栏 · 对话区

就是和 ChatGPT 差不多的聊天框：

顶部：当前知识库名（图上是 MANAGEMENT SCIENCE）+ 对话轮数 + 就绪状态
消息流：你的问题 / AI 回答（带 Markdown 格式、编号引用 [1] [2] 对应中栏来源）
底部输入框：输入问题，Enter 发送 · Shift+Enter 换行
右下角状态栏：134 篇文献 · 134 个片段已索引

2.4 顶部工具栏

🤖 AI 配置：切换这次问答用哪个模型（继承主 AI，也可以临时换）
📁 选文件夹：在知识库之间切换（和左栏等价）
⚡ 建立索引：首次对分类建库、或者分类里新加了文献后重建/增量
关闭：关窗口

三、使用流程：从零到第一次问答

3.1 准备一个分类

先在 Zotero 里有一个你真正想深问的分类——比如前面领域新文监控拉下来的 MANAGEMENT SCIENCE 有 134 篇论文，就是天然的知识库素材。

知识库至少要有 PDF

纯元数据（标题+摘要）也能索引，但最好的效果是有 PDF 全文。先用**下载附件（多源）**把 PDF 抓全，再建索引。

3.2 打开知识库问答

顶部工具栏点 📚 知识库 按钮（文献工作台里讲过的那 5 个蓝色按钮之一）→ 弹出图上的窗口。

3.3 首次索引

左栏选你的分类（或点顶部 📁 选文件夹 挑）
点 ⚡ 建立索引
后台开始给这个分类每篇文献的 PDF 正文做分片 + 向量化
时间开销：100 篇文献大约 1-5 分钟（取决于你的嵌入模型服务商和文献大小）
首次建完，之后问答秒级响应，不用再等

嵌入模型就是做这一步向量化的模型。详见配置 AI 服务 → 嵌入模型。

3.4 提问

索引建好后，右栏输入问题。比如：

人工智能对生产力的影响有什么实证证据？
这 134 篇里哪几篇用了 RCT 实验设计？
作者们对 AIGC 的负面影响有什么担忧？
列一下被引次数最多的 5 篇

AI 会：

从索引里先检索相关片段
把片段 + 你的问题扔给主 AI
按 Markdown 格式回答，每个结论带 [1] [2] 这样的编号
中栏同步显示这几个编号对应的原文片段

3.5 追问和深挖

继续在对话里追问，AI 记得上下文
想看原文 → 点中栏的"打开 PDF"
怀疑 AI 说得不对 → 点"定位条目"去 Zotero 核对
换个知识库接着问 → 左栏切换

四、多知识库管理

一个 Zotero 用户通常会同时维护几个知识库：

分类 / 知识库	用途
`MANAGEMENT SCIENCE`（手动期刊监控）	跟某本顶刊的所有论文对话
`AIGC 教师倦怠`（AI 推荐监控）	聚焦某个研究方向
`我的出版物`	自己发表过的论文库
`综述-XXX 课题`	为写某个综述专门攒的 50 篇
`全部知识库`	不知道在哪个库 / 想跨库找时

每个库单独索引、单独问答，互不干扰。每次新增了一批文献后，点 ⚡ 建立索引 增量更新就行（只新索引加进来的片段，不会全部重来）。

五、典型场景

5.1 开题调研

100 篇文献一起问"有哪些研究的空白点还没被覆盖？"，AI 在全库里交叉检索，比自己翻效率高 10 倍。

5.2 找 gap

"列出作者们提到的"未来研究方向""——AI 能把不同论文 Discussion 章节的 Limitations / Future Work 汇总出来，写 proposal 直接能用。

5.3 写综述

先问思路（"主要研究方法有几类"），再问论据（"用 XXX 方法的代表性论文是哪几篇"），最后汇总到笔记里。比对着 Zotero 一篇篇翻高效得多。

5.4 论文答辩备稿

临答辩前问自己这个领域的经典论文，AI 基于你攒的知识库回答——专属于你课题的"补刀"。

六、FAQ

Q1: 为啥建立索引一直转圈不完？

A: 可能原因按概率排序：

PDF 没下全：知识库索引的是 PDF 正文，没 PDF 的只能索引标题+摘要。先右键分类→**下载附件（多源）**把 PDF 补齐
嵌入模型没配对：设置页的嵌入模型默认「跟随主 AI」，但某些主 AI 不带嵌入接口。去 AI 服务配置单独给嵌入填一个（阿里 text-embedding-v3、OpenAI text-embedding-3-small 都行）
网络问题：嵌入走的是你选的服务商的 API，走不通就会一直转。换个网络 / VPN

Q2: 能问中文问题吗？英文文献也能答？

A: 能。中文提问 + 英文文献 + 中文回答 是最常见组合。向量检索对跨语言友好，大多数主流嵌入模型都支持。

Q3: AI 回答里出现"文献 [2] 主要讨论 XXX, 与本问题无直接关系"咋回事？

A: 图上就有这种情况——这其实是好事。说明 AI 没被"硬塞进来"的低相关片段带偏，而是明确告诉你这一段其实没用。RAG 系统诚实的表现。

Q4: 知识库数据存哪？隐私安全吗？

A:

向量索引：存在你本机 Zotero 数据目录下的 SQLite 库里，不上传云端
每次问答：问题 + 检索到的片段会发给主 AI（OpenAI / 通义 / DeepSeek / 本地 Ollama……看你配置）。完全离线的话用 Ollama + 本地嵌入模型
PDF 原文始终在本地，不走云

Q5: 建一次索引消耗多少钱？

A: 嵌入比主 AI 便宜一个数量级。100 篇平均 15 页的文献，总片段数约 3000 个，用阿里 text-embedding-v3 总成本 ¥0.01 左右。基本可忽略。

Q6: 我删了文献/改了文献，知识库会自动更新吗？

A: 不会自动。**手动点一下「建立索引」**即可增量处理（它能识别哪些是新/改的）。

Q7: "全部知识库 251" 是啥意思？

A: 所有知识库合并。跨库查询时用。不知道答案在哪个分类里就用它。

读文献侧到这里就齐了：阅读辅助（逐篇精读）+ 知识库问答（整批扫一遍）覆盖 95% 的论文阅读场景。

写综述的时候，知识库配合 专业综述与研究发现 用最爽——基于你这批文献直接出带引用的综述报告。