加载中...
加载中...
MiniCPM-2B-128k
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
MiniCPM-2B-128k是面壁智能开源的小规模参数语言模型MiniCPM的超长上下文优化版本。在此前的30亿参数及以下的大语言模型中,一般来说上下文长度都在4K及以内。而MiniCPM-2B-128k作为首个30亿以内参数的模型,上下文长度拓展到了128K,不过官方说,在4K以内,这个模型的性能有所下降。
MiniCPM-2B拓展到128K上下文经过了多个阶段,官方解释了这个过程:
多阶段衰减(decay)训练
SFT(Supervised Fine-tuning)训练
相比较原始的MiniCPM-2B模型,该版本的模型架构有如下变化:
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
