独立开发者 / Agent 算法工程师(端到端交付)
ScholarMind
面向学术研究的 AI 助手,重点处理 RAG 检索、引用溯源和长文档编辑。
已部署 更新:2026-05-15
- RAG
- Agent
- Fullstack
- System Design
技术栈:Next.js · FastAPI · PostgreSQL · pgvector · LLM
演示视频
问题背景
ScholarMind 面向学术研究场景,重点处理三个问题:文献检索不稳定、生成内容难以溯源、LaTeX 长文档编辑成本高。系统以本地知识库为基础,集成学术 RAG、DeepResearch 和 Doc Studio。
我的职责
- 负责整体架构和核心功能实现,包括多智能体工作流、学术 RAG 检索链路和文档编辑 Agent。
- 设计并实现 DeepResearch 的 Planner / Manager / Research / Reporter 多 Agent 协作机制,支持子问题动态扩展、队列去重、证据质量评估与报告生成。
- 设计 Doc Studio 的 ReAct 编辑闭环,覆盖意图识别、精确改写、编译校验、Diff 展示与回滚。
- 负责系统工程化落地,包括上下文记忆、工具预算控制、危险操作审批、流式交互与可观测性设计。
技术架构
- DeepResearch:Planner / Manager / Research / Reporter 多智能体协作,结合 Observe-Decide-Act 闭环与 Beam-Select 并发动作策略。
- Doc Studio:ReAct 编辑 Agent,支持定位、读片段、精确改写、编译 / 校验、差异呈现与审批回滚。
- 学术 RAG:PDF 双引擎解析、BM25 + 向量多路召回、Multi-Query / HyDE 查询增强、RRF + MMR 融合、Cross-Encoder 精排。
- 部署:Vercel 前端 + 阿里云 ECS 后端 + Cloudflare Tunnel,面向面试演示做低成本稳定部署。
核心难点
- 引用溯源:生成结果需要回填页码 / BBox 级证据锚点,降低学术写作中的幻觉和错误引用风险。
- 多路召回质量:通过 Multi-Query / HyDE、RRF、MMR 与 Cross-Encoder 精排平衡覆盖率、相关性和冗余控制。
- Agent 治理:Doc Studio 需要在长文档协作中处理工具预算、连续失败自恢复、危险操作审批与历史回滚。
证据入口
- 访问入口:https://scholarmind.wh5233.me/demo
- GitHub:https://github.com/wanghong5233/ScholarMind
- 视频:/videos/scholarmind-demo-v0.mp4(部署前放入
public/videos/) - 架构图:待补充到
public/images/projects/scholarmind-architecture.webp - 复盘文章:待补充
结果与复盘
- DeepResearch 支持本地知识库与学术网络(arXiv / Semantic Scholar)的双源检索,并能输出带引用的研究报告。
- Doc Studio 支持 LaTeX 长文档的语义定位、精确改写、编译校验、行级 Diff 对比和审批回滚。
- 后续重点是补充更系统的召回评估、长文档编辑稳定性评估和公开技术复盘。
设计取舍与后续计划
- 检索链路采用混合召回 + 精排,而不是纯向量检索,以保证学术长尾问题的覆盖率。
- Doc Studio 强调 Human-in-the-loop 和审批令牌,而不是让 Agent 自动执行所有编辑,优先控制风险。
- 低成本部署阶段优先使用外部模型 API 与轻量后端,避免在 2C2G ECS 上运行重型 parser 或本地模型。