豆包新模型测试效果sota

豆包新模型几天前开始在火山方舟codingplan进行灰度测试，包括glm-5.2、kimi-k2.7-code、minimax-m3等第三方模型会概率路由到一个神秘模型，这个神秘模型应该是新的豆包模型，名为arena。该模型具有1M上下文窗口，最大支持131072个tokens，采用思维摘要进行思考，理论上的每秒处理能力（tps）约为100，但测试中达到了163tps。以下是一些测试文件，其中标注为m3的文件并非由m3模型生成，而是通过m3路由的，标注为m3的文件是思考版本，类似地，标注k2的文件也是通过k2路由的。测试文件可能包含一些不规范的命名，请特别留意。

豆包新模型测试效果sota

评论已关闭