在探索了多种语音识别工具后,我发现微软自带的听写功能在速度和准确性上表现突出。微软慷慨地提供免费的算力支持,这一点非常吸引人。目前,使用大型模型进行语音识别的方案,我认为更适合长时间录音的场景,因为在这种情况下效果会更好。对于短句和流式语音识别,传统的方案可能更为适用。这与使用大模型进行翻译的情况类似。如果翻译的是短句,由于缺乏上下文信息,使用大模型翻译的效果可能与谷歌机翻相差无几,甚至可能不如后者快速。

标签: none

评论已关闭