基于Ikuncode缓存测试报告

前情提要：

突发奇想测试缓存命中，因为有的时候缓存命中算法的好坏也会决定用户的性价比，同时也会识别是否为官方API。

回答一些佬的问题以及实验设计：

1.测试中转站有没有每次提问偷tokens。

2.测试中转站是否是官key。

3.文档是虚拟文档，涵盖了生活中的大部分内容（下面有详细介绍）。

4.为了保证实验的准确性，全都是清空了缓存和日志重新操作的。

5.实验环境在colab中

6.为什么只用2000+tokens以及不循环测试呢？

答：尽可能要在一个账号的使用权限中完成实验，才有比较性。若多次实验，切换账号后，账号A的缓存可能不会进入账号B。实验会出现误差，并且不太确什么时候会切换。

7.继续6.叙述，后续实验展望：可以测试大量文档以观察切换账号后能否长记忆（但大概率不行），或隔离环境下单纯对中转站缓存命中测试。

基于中转可用性网站2025.11.26排行，选择用Ikuncode进行测试。

非常感谢Ikuncode站长提供的key @zyoung

下面是详细报告

摘要

本次测试基于 Titan-DB 基准技术文档（虚拟构建）及 6 个标准化测试场景，对大模型中转系统的 Prompt Caching 命中率进行了系统性测评。实验涵盖冷启动、完全命中、前缀命中、短请求过滤、内容变更、模型隔离场景。

通过对 6 种典型情况仿真测试，结论如下：

功能性验证：网关成功实现了基于 Anthropic 协议的缓存机制，精确匹配场景下的请求级命中率达 100%。

效能指标：在混合压力测试下，综合 Token 命中率为 19.92%，直接成本节省率为 13.50%。

架构特征：测试揭示该网关后端采用无状态轮询负载均衡策略，导致前缀复用场景在跨节点分发时存在缓存漂移现象。

安全性：跨模型及内容变更场景均通过了隔离性验证，未发现数据串扰风险。

审计方法论

本次测试采用黑盒探测法，通过构建确定性的基准语料（Titan-DB Technical Docs, Length: 2529 Tokens），文档内容包含：架构描述、配置参数、API 接口定义和错误码，模拟真实的开发者文档。

评价指标体系如下：

CHR (综合命中率): 缓存读取 Token 总数与总输入 Token 数的比值

定义：衡量全局流量中通过缓存直接服务的比例，反映算力节省程度。

CWR (缓存写入占比): 缓存写入 Token 总数与总输入 Token 数的比值

定义：衡量流量中用于建立缓存（写入）的比例，反映系统的“冷启动”成本。

实验数据详解

3.1 总体流量统计

总请求数: 6

总吞吐量: 12,694

总输出量: 2,012

3.2核心绩效指标

综合 Token 命中率: 19.92%

缓存写入占比: 59.77%

成本节省比例: 13.50%

4.数据结果分析

6 个场景中的表现如下：

• 冷启动：场景中全部 Token 被写入缓存，符合首次访问预期；

• 完全命中：场景命中率达到 100%，说明同一文档的连续访问可直接复用缓存；

• 前缀命中：测试中出现重新写入，表明在当前实现下前缀复用并非强保证；

• 短请求未触发缓存写入，符合阈值设计；

• 内容末尾添加空格导致缓存失效，验证了系统对字节级差异敏感；

• 模型隔离场景中无命中无写入，说明跨模型不会共享缓存。

PS：

1、以上已经征得ikuncode站长同意

2、不涉及推广，随后各大中转站都会测试

3、本次实验会经过同行评审，不用各位操心，看结果即可。

基于Ikuncode缓存测试报告

评论已关闭