腾讯公司最近发布了其新的扩散模型——WeDLM-8B-Instruct,这是一个基于指令微调的扩散语言模型。该模型在标准因果注意力机制下执行并行解码,并且是在WeDLM-8B的基础上进行微调的。WeDLM-8B-Instruct在数学推理任务上的速度比经过vLLM优化的Qwen3-8B快3-6倍,并且在大多数基准测试中,其性能也优于基础的Qwen3-8B-Instruct。此外,该模型原生兼容KV缓存,支持FlashAttention、PagedAttention和CUDA Graphs等高级功能。关于基础版本WeDLM-8B的更多信息,可以参考其Hugging Face页面。此外,WeDLM-8B-Instruct的论文即将发布,项目主页和GitHub仓库也提供了更多资源。

标签: none

评论已关闭