OpenBMB发布MiniCPM-SALA模型:稀疏注意力与线性注意力混合架构,实现高效长文本处理
OpenBMB最近发布了一个名为MiniCPM-SALA的模型,它采用了稀疏注意力与线性注意力的混合架构。这种架构在保证性能无损的前提下,使得9B规模的模型仅使用消费级显卡也能进行1M Tokens的端侧推理,为高效处理长文本构建了新的技术基础。该模型的开源仓库位于GitHub上,可以通过以下链接访问:GitHub - OpenBMB/MiniCPM。同时,模型本身也可以在Hugging Face上找到,链接为:openbmb/MiniCPM-SALA · Hugging Face。更多信息和讨论可以在的相关话题中找到。此外,还有一些图片资源展示了该模型的相关信息。
评论已关闭