AI 准确读取 API 文档的方案探讨
关于如何让 AI 准确读取 API 文档,我整理了三种方案,并希望得到更好的建议。目前,虽然 AI 知识库中包含了一些 API 知识库,但大多数情况下都会有偏差。以下是我目前知道的几种方案:
- 使用 Cursor+Grok codeFast+Firecrawl(或 EXO)批量抓取所有 API,然后整理到一个文档中,在编码时直接读取。
- NotebookLM,这是一种较新的方案,通过 Firecrawl 下载 API 文档,然后将其交给 NotebookLM,再通过第三方的 NotebookLM MCP(通过 playwright 无头模式进行对话)来获取最佳实践答案。
- 将所有文档打包成一个 MCP,但使用效果似乎并不理想。
主要目的是让 AI 在限定的范围内给出准确的答案。我想和各位交流:有没有大家觉得比较可靠、可操作、效果良好的方案?比如:
- 有没有“爬取 + 结构化 + 版本管理 + RAG”这一整套的开源框架或项目?
- 在 API 文档这种场景下,按服务/版本/语言做 metadata + 检索的经验?
- 在实际使用中,怎样做“模型只能在指定文档回答,不越界”的 prompt 或机制?
- 有没有人用过 Casibase/RAGFlow 这类工具,效果如何?
我目前倾向的改进路径是:自动抓取 → chunk + metadata → 向量检索(RAG)→ prompt 中明确“基于 vX 版本”的上下文限定。大家有没有实践经验,或者推荐开源/半开源项目?
评论已关闭