在华为910B显卡上部署千问小模型时,API回复缓慢可能是由多种因素造成的。首先,确保您的服务器配置和驱动程序是最新的,因为过时的驱动程序可能会导致性能问题。其次,检查您的Docker容器配置,确保显存分配和模型加载参数设置正确。您提到显存占用率超过90%,这可能导致资源竞争,影响响应速度。尝试减少模型参数或优化显存分配,看看是否能提高性能。此外,考虑使用批处理或异步处理技术来提高吞吐量。最后,监控服务器的CPU和内存使用情况,确保没有其他进程占用过多资源。如果问题仍然存在,可能需要进一步检查硬件配置或联系华为技术支持获取帮助。

标签: none

评论已关闭