DeepSeek-V3.1 Terminus
支持
128K tokens
8192 tokens
聊天大模型
2025-09-22
1340GB
默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | 0.56 美元/100 万tokens | 1.68 美元/100 万tokens |
DeepSeek-V3.1-Terminus是DeepSeek系列语言模型的最新迭代,它在继承前代模型强大能力的基础上,专注于提升输出的稳定性和可靠性。通过对用户反馈的积极响应,该模型在语言一致性和智能代理性能等多个维度上都进行了针对性优化。
从各项基准测试的对比数据来看,DeepSeek-V3.1-Terminus在多个关键领域展现了其性能优势。
在无工具使用的推理模式(reasoning mode w/o tool use)下,该模型在多个测试集上表现优异。例如,在MMLU-Pro上的得分为85.0,在GPQA-Diamond上为80.7,尤其是在Humanity’s Last Exam测试中,得分从15.9大幅提升至21.7,显示出其在复杂推理能力上的显著进步。
在启用智能代理的工具使用(agentic tool use)场景下,V3.1-Terminus同样表现出色。在BrowseComp、SimpleQA和SWE Verified等测试中,得分均有明显提升,分别达到了38.5、96.8和68.4。这证明了其在利用外部工具完成网页浏览、问答和代码验证等任务时,具备更强的实操能力。
然而,在部分测试如Codeforces和BrowseComp-zh中,其表现与前代版本相比略有下降,这可能反映了模型在特定场景下的性能权衡。
DeepSeek-V3.1-Terminus模型已通过网页、App及API等多种形式向公众开放。同时,其模型权重也已在Hugging Face社区开源,便于开发者和研究人员进行深入的探索和应用。
关注DataLearnerAI微信公众号,接受最新大模型资讯