美团今日正式推出 LongCat-Flash-Lite,这是一款非思考型(non-thinking)的 68.5B 参数混合专家(MoE)模型。该模型激活参数约为 3B,通过 YaRN 方法支持 256k 的上下文长度。LongCat-Flash-Lite 在智能体工具调用(agentic tool use)和编程能力方面树立了新的基准,同时保持了卓越的运行效率。其核心规格包括总参数量为 68.5B,激活参数量为 2.9B - 4.5B,上下文长度为 256K tokens,嵌入层参数为 30B+,架构为 MoE + N-gram 嵌入 (NE)。基于 LongCat-Flash 架构,LongCat-Flash-Lite 的独特之处在于集成了 N-gram 嵌入表,旨在同时提升模型性能与推理速度。尽管在嵌入层分配了超过 30B 的参数,LongCat-Flash-Lite 不仅超越了同等参数量的 MoE 基准模型,而且在与现有同规模模型的竞争中展现出极强的竞争力,特别是在智能体和编程领域。在基准测试结果中,LongCat-Flash-Lite 在所有 Tau2 基准测试中均取得了惊人的成绩,显著超越了所有对比模型,包括那些参数量更大的模型。在 SWE-Bench 上,该模型取得了 54.40 的准确率,大幅领先于 Gemini 2.5 Flash-Lite (41.3) 和 Qwen3-Next-80B (37.60)。虽然专注于智能体和编程任务,LongCat-Flash-Lite 仍保持了强大的通用能力,在 MMLU 上得分为 85.52,在 MATH500 上得分为 96.80。高效的架构设计,YaRN 方法实现了对 256k 上下文长度的支持,使该模型非常适合长文档理解和复杂的对话交互。

标签: none

评论已关闭