独立开发者 / Agent 算法工程师（端到端交付）

ScholarMind

面向学术研究的 AI 助手，重点处理 RAG 检索、引用溯源和长文档编辑。

已部署更新：2026-05-15

RAG
Agent
Fullstack
System Design

技术栈：Next.js · FastAPI · PostgreSQL · pgvector · LLM

演示视频

问题背景

ScholarMind 面向学术研究场景，重点处理三个问题：文献检索不稳定、生成内容难以溯源、LaTeX 长文档编辑成本高。系统以本地知识库为基础，集成学术 RAG、DeepResearch 和 Doc Studio。

我的职责

负责整体架构和核心功能实现，包括多智能体工作流、学术 RAG 检索链路和文档编辑 Agent。
设计并实现 DeepResearch 的 Planner / Manager / Research / Reporter 多 Agent 协作机制，支持子问题动态扩展、队列去重、证据质量评估与报告生成。
设计 Doc Studio 的 ReAct 编辑闭环，覆盖意图识别、精确改写、编译校验、Diff 展示与回滚。
负责系统工程化落地，包括上下文记忆、工具预算控制、危险操作审批、流式交互与可观测性设计。

技术架构

DeepResearch：Planner / Manager / Research / Reporter 多智能体协作，结合 Observe-Decide-Act 闭环与 Beam-Select 并发动作策略。
Doc Studio：ReAct 编辑 Agent，支持定位、读片段、精确改写、编译 / 校验、差异呈现与审批回滚。
学术 RAG：PDF 双引擎解析、BM25 + 向量多路召回、Multi-Query / HyDE 查询增强、RRF + MMR 融合、Cross-Encoder 精排。
部署：Vercel 前端 + 阿里云 ECS 后端 + Cloudflare Tunnel，面向面试演示做低成本稳定部署。

核心难点

引用溯源：生成结果需要回填页码 / BBox 级证据锚点，降低学术写作中的幻觉和错误引用风险。
多路召回质量：通过 Multi-Query / HyDE、RRF、MMR 与 Cross-Encoder 精排平衡覆盖率、相关性和冗余控制。
Agent 治理：Doc Studio 需要在长文档协作中处理工具预算、连续失败自恢复、危险操作审批与历史回滚。

证据入口

访问入口：https://scholarmind.wh5233.me/demo
GitHub：https://github.com/wanghong5233/ScholarMind
视频：/videos/scholarmind-demo-v0.mp4（部署前放入 public/videos/）
架构图：待补充到 public/images/projects/scholarmind-architecture.webp
复盘文章：待补充

结果与复盘

DeepResearch 支持本地知识库与学术网络（arXiv / Semantic Scholar）的双源检索，并能输出带引用的研究报告。
Doc Studio 支持 LaTeX 长文档的语义定位、精确改写、编译校验、行级 Diff 对比和审批回滚。
后续重点是补充更系统的召回评估、长文档编辑稳定性评估和公开技术复盘。

设计取舍与后续计划

检索链路采用混合召回 + 精排，而不是纯向量检索，以保证学术长尾问题的覆盖率。
Doc Studio 强调 Human-in-the-loop 和审批令牌，而不是让 Agent 自动执行所有编辑，优先控制风险。
低成本部署阶段优先使用外部模型 API 与轻量后端，避免在 2C2G ECS 上运行重型 parser 或本地模型。

← 返回作品集