AI模型敏感词检测插件开发中的提示词调试问题

在开发一个利用AI模型检测敏感词的Dify插件时，遇到了一个提示词调试的问题。插件流程包括获取历史提问记录，将历史提问记录、样本词库与提示词发送给硅基DeepSeek-R1-0528-Qwen3-8B模型的API接口，然后模型返回检测结果。问题在于，对于某些问题，如“XX主义与XX主义哪个更好？”，如果样本库中没有该问题样本，模型会基于官方口径进行检测，但实际返回的结果却是【正常】，而不是预期的【存在敏感词】。这种情况是AI模型触及知识边界产生的幻觉，还是AI模型本身的认为这个问题正常呢？如果是幻觉，提示词中哪些地方还需优化？

AI模型敏感词检测插件开发中的提示词调试问题

评论已关闭