FastGPT图文问答解决方案探讨

关于FastGPT构建知识库时实现图文问答的问题，您遇到的挑战是如何处理PDF和Word文档中的图文混排信息。FastGPT默认的文档解析逻辑似乎会过滤掉图片，只提取纯文本，这导致训练后的模型丢失了图片信息。在不修改FastGPT核心源码的前提下，可以考虑以下几种处理方案：

使用开源工具将PDF和Word文档转换为Markdown文件，同时上传图片到云存储服务，并更新Markdown中的图片链接。一些可用的工具包括pandoc和pdf2md。这些工具可以将PDF和Word文档转换为Markdown格式，并保留图片信息。您可以使用这些工具处理后，再将Markdown文件导入FastGPT进行训练。
使用OCR（光学字符识别）技术提取PDF和Word文档中的文本，同时将图片保存到云存储服务。然后，您可以手动或使用脚本将文本和图片链接组合成Markdown格式，再导入FastGPT。
探索FastGPT的高级配置选项，看是否有设置允许保留图片信息。虽然这需要一定的技术能力，但可能不需要修改源码。
寻找社区支持或联系FastGPT的开发者，看是否有推荐的解决方案或即将推出的功能支持图文混排。
如果条件允许，可以考虑使用其他支持图文混排的AI平台，这些平台可能已经内置了解决方案。

希望这些建议能帮助您解决问题，实现图文并茂的问答功能。