Kimi 第三方API供应商的性能测试结果更新

慢讯11.15号更新 :

首先是Kimi-K2-Thinking的第三方API的测试结果:

注:我们多次运行官方API来测试tool_call_f1的波动情况。最低分数为75.81%,平均分数为76%。鉴于模型的固有随机性,我们认为tool_call_f1分数高于73%是可以接受的,并可以作为参考。

然后是K2的,temperature=0.6:

我们多次运行官方API来测试tool_call_f1的波动情况。最低分数为82.71%,平均分数为84%。鉴于模型的固有随机性,我们认为tool_call_f1分数超过80%是可以接受的,并可以作为参考。

1 post - 1 participant

via - (author: bige0123)

Invalid media:

image

image

标签: none

评论已关闭