Qwen3-ASR系列语音识别模型正式开源,标志着语音识别技术迈向新标杆。该系列包括Qwen3-ASR-1.7B、Qwen3-ASR-0.6B和Qwen3-ForcedAligner-0.6B三个模型,分别针对高精度全场景识别、高性能轻量级应用和强制对齐任务设计。基于自研AuT语音编码器与Qwen3-Omni多模态基座,这些模型实现了端到端的语音理解能力,支持52种语种和方言的识别与转写。Qwen3-ASR-1.7B在多项基准测试中表现优异,中文方言识别的词错误率(WER)显著降低,英文口音测试全面超越GPT-4o Transcribe等模型。Qwen3-ASR-0.6B则在效率和精度间取得良好平衡,特别适合高并发生产环境。模型地址和仓库信息已提供,供开发者探索和使用。

标签: none

评论已关闭