基于Ikuncode缓存测试报告
基于Ikuncode缓存测试报告
前情提要:
突发奇想测试缓存命中,因为有的时候缓存命中算法的好坏也会决定用户的性价比,同时也会识别是否为官方API。
回答一些佬的问题以及实验设计:
1.测试中转站有没有每次提问偷tokens。
2.测试中转站是否是官key。
3.文档是虚拟文档,涵盖了生活中的大部分内容(下面有详细介绍)。
4.为了保证实验的准确性,全都是清空了缓存和日志重新操作的。
5.实验环境在colab中
6.为什么只用2000+tokens以及不循环测试呢?
答:尽可能要在一个账号的使用权限中完成实验,才有比较性。若多次实验,切换账号后,账号A的缓存可能不会进入账号B。实验会出现误差,并且不太确什么时候会切换。
7.继续6.叙述,后续实验展望:可以测试大量文档以观察切换账号后能否长记忆(但大概率不行),或隔离环境下单纯对中转站缓存命中测试。
基于中转可用性网站2025.11.26排行,选择用Ikuncode进行测试。
非常感谢Ikuncode站长提供的key @zyoung
下面是详细报告
- 摘要
本次测试基于 Titan-DB 基准技术文档(虚拟构建)及 6 个标准化测试场景,对大模型中转系统的 Prompt Caching 命中率进行了系统性测评。实验涵盖冷启动、完全命中、前缀命中、短请求过滤、内容变更、模型隔离场景。
通过对 6 种典型情况仿真测试,结论如下:
功能性验证: 网关成功实现了基于 Anthropic 协议的缓存机制,精确匹配场景下的请求级命中率达 100%。
效能指标: 在混合压力测试下,综合 Token 命中率为 19.92%,直接成本节省率为 13.50%。
架构特征: 测试揭示该网关后端采用无状态轮询负载均衡策略,导致前缀复用场景在跨节点分发时存在缓存漂移现象。
安全性: 跨模型及内容变更场景均通过了隔离性验证,未发现数据串扰风险。
- 审计方法论
本次测试采用黑盒探测法,通过构建确定性的基准语料(Titan-DB Technical Docs, Length: 2529 Tokens),文档内容包含:架构描述、配置参数、API 接口定义和错误码,模拟真实的开发者文档。
评价指标体系如下:
CHR (综合命中率): 缓存读取 Token 总数与总输入 Token 数的比值
定义:衡量全局流量中通过缓存直接服务的比例,反映算力节省程度。
CWR (缓存写入占比): 缓存写入 Token 总数与总输入 Token 数的比值
定义:衡量流量中用于建立缓存(写入)的比例,反映系统的“冷启动”成本。
- 实验数据详解
3.1 总体流量统计
总请求数: 6
总吞吐量: 12,694
总输出量: 2,012
3.2核心绩效指标
综合 Token 命中率: 19.92%
缓存写入占比: 59.77%
成本节省比例: 13.50%
4.数据结果分析
6 个场景中的表现如下:
• 冷启动:场景中全部 Token 被写入缓存,符合首次访问预期;
• 完全命中:场景命中率达到 100%,说明同一文档的连续访问可直接复用缓存;
• 前缀命中:测试中出现重新写入,表明在当前实现下前缀复用并非强保证;
• 短请求未触发缓存写入,符合阈值设计;
• 内容末尾添加空格导致缓存失效,验证了系统对字节级差异敏感;
• 模型隔离场景中无命中无写入,说明跨模型不会共享缓存。
PS:
1、以上已经征得ikuncode站长同意
2、不涉及推广,随后各大中转站都会测试
3、本次实验会经过同行评审,不用各位操心,看结果即可。
评论已关闭