DeepSeek-V3.1 Terminus
DeepSeek-V3.1 Terminus is an AI model published by DeepSeek-AI, released on 2025-09-22, for 聊天大模型, with 6710.0B parameters, and 128K tokens context length, requiring about 1340GB storage, under the MIT License license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
| Modality | Input | Output |
|---|---|---|
| Text | $0.56 | $1.68 |
DeepSeek-V3.1 Terminus currently shows benchmark results led by SimpleQA (2 / 45, score 96.80), MMLU Pro (17 / 116, score 85), LiveCodeBench (21 / 109, score 80). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.
DeepSeek-V3.1-Terminus是DeepSeek系列语言模型的最新迭代,它在继承前代模型强大能力的基础上,专注于提升输出的稳定性和可靠性。通过对用户反馈的积极响应,该模型在语言一致性和智能代理性能等多个维度上都进行了针对性优化。
从各项基准测试的对比数据来看,DeepSeek-V3.1-Terminus在多个关键领域展现了其性能优势。
在无工具使用的推理模式(reasoning mode w/o tool use)下,该模型在多个测试集上表现优异。例如,在MMLU-Pro上的得分为85.0,在GPQA-Diamond上为80.7,尤其是在Humanity’s Last Exam测试中,得分从15.9大幅提升至21.7,显示出其在复杂推理能力上的显著进步。
在启用智能代理的工具使用(agentic tool use)场景下,V3.1-Terminus同样表现出色。在BrowseComp、SimpleQA和SWE Verified等测试中,得分均有明显提升,分别达到了38.5、96.8和68.4。这证明了其在利用外部工具完成网页浏览、问答和代码验证等任务时,具备更强的实操能力。
然而,在部分测试如Codeforces和BrowseComp-zh中,其表现与前代版本相比略有下降,这可能反映了模型在特定场景下的性能权衡。
DeepSeek-V3.1-Terminus模型已通过网页、App及API等多种形式向公众开放。同时,其模型权重也已在Hugging Face社区开源,便于开发者和研究人员进行深入的探索和应用。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
