科学工具
科学工具让世界更美好
让世界更美好

CitationClaw 学术论文智能引用画像和分析报告

CitationClaw 是一款用 Python 开发的轻量学术引用分析工具,利用爬虫和大语言模型,把论文引用数据转化为可读的影响力信息。你只需输入论文标题,或从 Google Scholar 学者主页导入文献,几分钟后就能拿到一份完整的引用分析报告。这份报告可以用在基金申请、论文答辩、成果梳理等各种场景。

CitationClaw 核心功能

  1. 五阶段分析流程 从引用抓取、作者分析、结构化导出、引文描述到报告生成,每个阶段循序渐进,把原始引用数据逐步变成清晰的信息。

  2. 高影响力学者识别 自动找出引用你论文的高影响力学者,并为他们相关的引用生成专门的分析结果,帮你快速定位论文的关键传播对象。

  3. 三种分析模式 基础、进阶、完整三种模式可选,分析成本、速度和深度依次递增。初次尝试时可以用基础模式快速看结果。

  4. 断点续爬与缓存 支持按页断点续爬引用数据,同时缓存作者信息和引文描述。再次分析同一篇论文时,不用重复抓取和计算,节省时间和接口费用。

  5. 可分享的 HTML 报告 生成的可视化报告是一个独立的 HTML 文件,无需服务器,直接发送文件就能给别人查看,分享很方便。

  6. 模块化技能运行时 把五个阶段的执行拆分成独立的模块,扩展起来更灵活,新功能可以单独添加而不影响原有流程。

整体架构

CitationClaw 的架构把业务逻辑和执行环节分得很清楚:

UI/REST/WebSocket
│
▼
TaskExecutor (总调度)
│
▼
技能运行时
├─ phase1_citation_fetch(引用抓取)
├─ phase2_author_intel(作者分析)
├─ phase3_export(结构化导出)
├─ phase4_citation_desc(引文描述生成)
└─ phase5_report_generate(报告生成)

上层接 UI、REST 接口或 WebSocket,由任务执行器统一调度;下层通过技能运行时调用各阶段模块,完成整个分析。

安装方式

需要 Python 3.10 或以上(推荐 3.12)。

1. 从 PyPI 安装(推荐)

pip install citationclaw
citationclaw # 默认启动地址:127.0.0.1:8000
citationclaw --port 8080 # 自定义端口

2. 从源码安装(适合开发者)

git clone https://github.com/VisionXLab/CitationClaw.git
cd CitationClaw
pip install -r requirements.txt
python start.py # 默认地址:127.0.0.1:8000
python start.py --port 8080

关键配置

使用前需要准备以下内容:

  • ScraperAPI Key:用于抓取 Google Scholar 的引用数据,可以配置多个密钥轮换使用。
  • 兼容 OpenAI 的 API Key:用于作者分析和引文描述生成。

此外,建议在涉及网络搜索的阶段使用 gemini-3-flash-preview-search 模型,可以提高信息获取的准确度。

服务层级说明

  • 基础版:成本低、速度快,适合测试链路。
  • 进阶版:只为高影响力学者相关的施引论文生成引文描述,平衡深度和成本。
  • 完整版:为所有施引论文生成引文描述,结果最全面,但耗时和成本也最高。

对于引用数超过 1000 的论文,建议开启年份遍历模式,可以突破抓取限制,拿到更全的数据。

分析结果输出

每次运行分析后,会在 data/result-{时间戳}/ 目录下生成以下文件:

  • paper_results.xlsx:全部引用数据的结构化 Excel
  • paper_results_all_renowned_scholar.xlsx:所有高影响力学者相关的引用分析
  • paper_results_top-tier_scholar.xlsx:顶尖学者相关的引用分析
  • paper_results_with_citing_desc.xlsx:包含引文描述的引用分析
  • paper_results.json:JSON 格式的全量数据
  • paper_dashboard.html:可视化的引用画像报告(独立 HTML 文件)