我的学术 MCP 矩阵:6 个工具组合的学术搜索策略

Semantic Scholar + OpenAlex + Firecrawl + EXA + Tavily + Linkup 的学术搜索组合策略。

Google Scholar 够用吗?

写过文献综述的人大概都有这样的经历:打开 Google Scholar,输入关键词,得到几万条结果。翻了十几页,收藏了二十几篇,心里却始终没底——这些真的是这个领域最重要的文献吗?有没有遗漏经典的奠基性研究?最近两年的前沿进展覆盖到了吗?

Google Scholar 的问题不在于搜不到东西,而在于搜到的东西太多、筛选手段太少。它没有结构化的引用网络分析,没有作者消歧,没有机构关联,没有开放获取状态过滤。你能做的只有翻页、点开、判断、收藏——纯手工流水线。

当我开始用 Claude Code 做学术研究后,逐渐摸索出一套 MCP 工具组合。6 个 MCP 各有分工,覆盖了从学术数据库检索到全网资源挖掘的完整链路。这篇文章分享这套组合的定位逻辑和实际使用策略。


六个工具,三层定位

先说结论。这 6 个 MCP 不是"越多越好"的堆叠,而是按功能层次组织的分工体系:

MCP类别核心能力数据规模成本
Semantic Scholar学术数据库引用网络分析、论文推荐、片段搜索2.14 亿论文免费(API Key 可选)
OpenAlex学术数据库作者消歧、机构解析、开放获取过滤2.5 亿+ 学术实体完全免费
Firecrawl网页抓取单页抓取、结构化提取、深度爬取全网免费 500 次
EXA Search语义搜索基于含义的网页搜索(非关键词匹配)全网免费额度
Tavily网络搜索AI 优化的搜索结果、内容提取全网免费额度
Linkup网络搜索深度网络搜索、学术资源发现全网免费额度

三层定位的逻辑是这样的:

第一层:学术数据库(Semantic Scholar + OpenAlex)

这两个是核心。它们直接连接学术论文数据库,返回的是结构化的学术元数据——标题、作者、摘要、引用量、DOI、发表年份,全都是干净的结构化数据。

Semantic Scholar 的强项是引用网络。它能告诉你一篇论文被谁引用了、引用了谁,还能基于你给的种子论文推荐相关文献。这对构建文献综述的"引用图谱"至关重要。它的 16 个工具里,paper_citationspaper_referencesget_paper_recommendations_multi 是别处找不到的独家能力。

OpenAlex 的强项是作者和机构。学术研究中一个常见痛点是作者同名——"张伟"在中国学术圈可能指向几百个不同的研究者。OpenAlex 的 ML 驱动作者消歧能解决这个问题。它还能把机构缩写解析为全称(比如 "MIT" → "Massachusetts Institute of Technology"),在跨机构合作分析中非常有用。

两者的互补关系一句话概括:Semantic Scholar 回答"这篇论文和哪些论文有关",OpenAlex 回答"这个作者和哪些机构有关"。

具体的能力差异值得展开说:

维度Semantic ScholarOpenAlex
引用分析双向(被引用 + 参考文献)无专门引用工具
论文推荐单篇/多篇推荐(支持正负例)无推荐功能
作者消歧仅关键词搜索ML 驱动消歧 + ORCID 集成
机构解析缩写扩展 + 批量解析
开放获取有 OA 字段原生 OA 状态过滤
安装便捷性PyPI 一行安装需从 GitHub 安装(命令稍长)

看出规律了吗?两个数据库的优势领域几乎完全错开。这不是巧合——Semantic Scholar 由 AI2(Allen Institute for AI)维护,核心定位是论文间的语义关联;OpenAlex 由 OurResearch 维护,核心定位是学术实体(作者、机构、概念)的关联图谱。工具设计的差异源自各自的数据架构差异。

第二层:网页抓取(Firecrawl)

学术数据库覆盖的是已发表的论文。但学术研究中还有大量信息散落在网页上——研究者的个人主页、实验室网站、预印本仓库、学术会议页面、政策文件。这些信息不在 Semantic Scholar 或 OpenAlex 的索引里。

Firecrawl 填补的就是这个缺口。它能抓取任意网页并转换为结构化的 Markdown,让 Claude 直接解析。它有三种工作模式,在学术场景中各有用途:

  • Scrape(单页抓取):给一个 URL,拿回页面内容。最常用——抓取某位学者的个人主页、某个会议的论文列表页
  • Crawl(深度爬取):从一个起始页开始递归爬取,适合批量获取某个期刊专刊的所有论文页面
  • Extract(结构化提取):用 LLM 从页面中提取结构化数据(JSON),比如从出版商页面提取标题、作者、摘要、关键词

日常学术使用中,Scrape 占九成以上。Crawl 和 Extract 的消耗更大(Extract 额外消耗 LLM token),在免费额度有限的情况下建议谨慎使用。

第三层:全网搜索(EXA + Tavily + Linkup)

前两层的共同局限是:你需要知道去哪里找。Semantic Scholar 需要关键词,Firecrawl 需要 URL。但有时候你连搜什么都不确定——比如"最近有没有什么新的研究方法被用在这个领域?"或者"其他学科是怎么处理类似问题的?"

这三个全网搜索 MCP 的价值在于探索性检索。EXA 的语义搜索尤其适合学术探索——你可以用自然语言描述你想找的内容,它会基于含义(而非关键词匹配)返回相关网页。Tavily 和 Linkup 则提供更传统的搜索能力,适合补充验证和扩展搜索范围。

坦白说,第三层在日常学术研究中的使用频率远低于前两层。大部分检索需求靠 Semantic Scholar + OpenAlex 就能覆盖。但在做跨学科文献调研或追踪非传统学术资源时,它们是有用的补充。


三个组合场景

抽象的定位说完了,来看三个具体的使用场景。

场景一:系统性文献综述

这是最典型的学术检索场景。你需要对一个研究主题做全面的文献梳理,目标是从几千篇论文中筛选出 25-50 篇核心文献。

组合策略:Semantic Scholar(主力) + OpenAlex(交叉验证) + Firecrawl(补充)

流程大致是这样的:

  1. 广撒网:用 Semantic Scholar 的 paper_relevance_searchpaper_bulk_search,分别用不同的关键词组合搜索,得到 1000+ 候选论文
  2. 交叉验证:同样的关键词在 OpenAlex 的 search_works 上再搜一遍,看有没有 Semantic Scholar 遗漏的文献——两个数据库的索引范围略有不同,交叉搜索能提高覆盖率
  3. 引用追踪:对筛选出的种子论文,用 Semantic Scholar 的 paper_citationspaper_references 追踪引用链,发现那些关键词搜索可能漏掉的经典文献
  4. 推荐扩展:用 get_paper_recommendations_multi 基于已有的核心文献推荐相似论文,覆盖最后的盲区
  5. 摘要补充:对于只有标题和引用信息但缺少摘要的论文,用 Firecrawl 抓取其出版商页面获取完整摘要

这套流程在实际使用中,2 小时左右就能完成传统方法需要一周的检索工作量。

场景二:追踪某个学者的研究脉络

有时候你不是在搜主题,而是在追踪人。比如你读到一篇很有启发的论文,想了解这个作者的整体研究方向和最新进展。这在准备组会文献汇报、写综述的"研究者贡献"部分、或者寻找潜在合作导师时都很常见。

组合策略:Semantic Scholar(论文列表) + OpenAlex(身份确认) + Firecrawl(个人主页)

  1. 身份确认:先用 OpenAlex 的 disambiguate_author_openalex 做作者消歧——确认你要找的是哪个"张伟"。OpenAlex 会给出作者的 ORCID、机构关联和研究主题,帮你确认身份
  2. 论文全览:用 Semantic Scholar 的 author_papers 拉取这个作者的全部论文列表,按引用量排序看其代表作,按时间排序看研究方向的演变。配合 author_details 可以拿到 h-index 和总引用量,快速评估学术影响力
  3. 合作网络:在 OpenAlex 中查看作者的机构历史和合作者关系,了解这个研究者的学术轨迹——从哪里读的博士、在哪里做的博后、现在在哪个实验室
  4. 最新动态:用 Firecrawl 抓取作者的个人主页或实验室网站,获取数据库尚未索引的最新工作(预印本、在审论文、项目主页)

这个场景的关键在于第一步。如果作者消歧没做好,后面拉出来的论文列表可能混入了同名不同人的文献,整个分析都会跑偏。这也是为什么 OpenAlex 在这个场景中不可替代——Semantic Scholar 的作者搜索只能按名字匹配,没有消歧能力。

场景三:跨学科方法论借鉴

你在一个领域遇到了方法论瓶颈,想看看其他学科是怎么解决类似问题的。比如你做教育研究,想借鉴医学领域的随机对照试验设计。

组合策略:EXA / Tavily(探索) + Semantic Scholar(深入) + OpenAlex(机构定位)

  1. 探索性搜索:用 EXA 的语义搜索,输入类似"randomized controlled trial methodology adapted for educational settings"的自然语言描述,看看返回什么——这个阶段不需要精确,需要的是发现
  2. 聚焦文献:从探索结果中提取关键术语和代表性论文,转到 Semantic Scholar 做精确检索
  3. 找到专家:通过 OpenAlex 定位在"跨学科方法论迁移"方面发表过论文的研究者和机构,为后续合作或求教提供线索

这个场景里,全网搜索 MCP 的价值才真正体现出来——学术数据库搜不到的东西,有时候在一篇博客文章、一个课程大纲或一份技术报告里能找到关键灵感。

值得一提的是,EXA、Tavily、Linkup 三者之间有一定的功能重叠。如果你不想全装,EXA 的语义搜索能力在学术探索场景中最为突出,是这三个里面优先级最高的。Tavily 的优势在于返回结果经过 AI 优化排序,在信息密集的搜索中减少噪声。Linkup 则适合需要深度抓取特定站点内容的场景。根据你的实际需求选一两个就够了。


安装配置速查

如果你想自己搭建这套工具矩阵,这里是核心三件套(Semantic Scholar + OpenAlex + Firecrawl)的最简配置。EXA、Tavily、Linkup 属于按需扩展,可以之后再加。

settings.json(Claude Code MCP 配置)
{
  "mcpServers": {
    "semantic-scholar": {
      "command": "uvx",
      "args": ["semantic-scholar-fastmcp"],
      "env": {
        "SEMANTIC_SCHOLAR_API_KEY": "your-api-key-here"
      }
    },
    "alex-mcp": {
      "command": "uvx",
      "args": [
        "--from", "git+https://github.com/drAbreu/alex-mcp.git@4.8.0",
        "alex-mcp"
      ],
      "env": {
        "OPENALEX_MAILTO": "your-email@domain.com"
      }
    },
    "firecrawl": {
      "command": "npx",
      "args": ["-y", "firecrawl-mcp"],
      "env": {
        "FIRECRAWL_API_KEY": "fc-YOUR_API_KEY"
      }
    }
  }
}

几个注意事项:

  • Semantic Scholar API Key:免费申请,但需要等邮件发送。没有 Key 也能用,只是速率限制较低(100 次/5 分钟)。建议提前去 Semantic Scholar API 页面申请
  • OpenAlex 不需要 API Key:只需要设置 OPENALEX_MAILTO(你的邮箱),进入"礼貌池"获得更高速率限制
  • Firecrawl 必须注册:去 firecrawl.dev 注册账号获取 API Key。免费层有 500 次终身额度,够学习和轻度使用
  • 安装命令不同:Semantic Scholar 用 uvx(PyPI 包),OpenAlex 用 uvx --from git+(GitHub 直装),Firecrawl 用 npx(npm 包)。三种安装方式,别搞混

工具不是越多越好

最后说一点使用心得。

刚接触 MCP 生态的时候,我的本能反应是"能装的全装上"。后来发现这不是个好策略。每多一个 MCP,Claude Code 的工具列表就多一批选项,它在选择调用哪个工具时的决策负担就增加一分。工具太多,反而会出现它选了一个不太合适的工具来回答本该用另一个工具解决的问题。

实际使用下来,Semantic Scholar + OpenAlex 两个就能覆盖 80% 以上的学术检索需求。Firecrawl 在需要抓取特定网页时加入。EXA、Tavily、Linkup 则是在做探索性研究时偶尔启用。

与其一次性全部配置好,不如根据当前任务的实际需要逐步引入。一个简单的参考:

你在做什么推荐配置
文献综述 / 文献检索Semantic Scholar + OpenAlex
文献综述 + 需要抓取非学术网页上述 + Firecrawl
跨学科探索 / 追踪非传统学术资源上述 + EXA 或 Tavily
学者追踪 / H-Index 分析Semantic Scholar + OpenAlex(已足够)

工具矩阵的价值不在于工具的数量,在于你知道什么时候该用哪个。六个工具全装上不会让你的检索自动变好,但在合适的场景用对合适的工具,一个下午就能完成过去一周的工作量。


进阶阅读

如果你想上手实操这套工具矩阵:

环境搭建环境搭建 -- 手把手的安装配置教程,包括 API Key 申请、验证测试、常见问题排查

实战应用论文检索 -- 用这套工具矩阵完成一篇完整文献综述的全流程教程