Text Generation Arena 文本生成模型排行榜

基于 Text Generation Arena 用户匿名投票的最新AI文本生成模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

Kimi K2.6

最高得分

1,460

模型数量

367

数据版本

2026年06月16日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前最强 AI 大模型在文本生成任务中的综合实力排名。数据来源于 LMArena(前身为 LMSYS Chatbot Arena),这是目前全球最大的 AI 模型众包评测平台。用户在平台上与两个匿名模型同时对话,并投票选出更好的回答——排名完全由真实用户的偏好决定,而非实验室基准测试。

评测方法概要

匿名盲测:用户同时与两个"隐藏身份"的模型对话,根据回答质量投票,排除品牌偏见。

Elo 评分:基于国际象棋领域的 Elo Rating 体系(Bradley-Terry 模型),通过对战结果计算每个模型的实力分数。分数越高,说明模型在真实对话中被用户选中的概率越大。

场景覆盖广泛:涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

榜单历史快照月份:

排名总表

排名模型名称得分95% CI投票数机构许可证
34Moonshot AIKimi K2.6Moonshot AI1,460+/-525,456Moonshot AIModified MIT
36DeepSeek-AIDeepSeek-V4-Pro (thinking)DeepSeek-AI1,458+/-526,928DeepSeek-AIMIT
38DeepSeek-AIDeepSeek-V4-ProDeepSeek-AI1,456+/-528,720DeepSeek-AIMIT
44Moonshot AIKimi K2 ThinkingMoonshot AI1,450+/-447,780Moonshot AIModified MIT
49MiniMaxminimax-m3MiniMax1,448+/-711,264MiniMaxProprietary
63DeepSeek-AIDeepSeek-V4-Flash (thinking)DeepSeek-AI1,436+/-528,215DeepSeek-AIMIT
67DeepSeek-AIDeepSeek-V4-FlashDeepSeek-AI1,434+/-528,291DeepSeek-AIMIT
72Moonshot AIKimi K2.5 InstantMoonshot AI1,431+/-78,177Moonshot AIModified MIT
75Moonshot AIKimi K2 Thinking (thinking-turbo)Moonshot AI1,430+/-362,098Moonshot AIModified MIT
80DeepSeek-AIDeepSeek V3.2DeepSeek-AI1,425+/-447,303DeepSeek-AIMIT
81DeepSeek-AIDeepSeek V3.2-Exp (thinking)DeepSeek-AI1,425+/-79,069DeepSeek-AIMIT
83Alibabaqwen3-max-2025-09-23Alibaba1,424+/-69,151AlibabaProprietary
85DeepSeek-AIDeepSeek V3.2-ExpDeepSeek-AI1,423+/-611,922DeepSeek-AIMIT
86DeepSeek-AIDeepSeek V3.2 (thinking)DeepSeek-AI1,423+/-441,085DeepSeek-AIMIT
87DeepSeek-AIDeepSeek-R1-0528DeepSeek-AI1,422+/-618,463DeepSeek-AIMIT
90Moonshot AIKimi K2 0905Moonshot AI1,418+/-711,780Moonshot AIModified MIT
91DeepSeek-AIDeepSeek-V3.1 Terminus (thinking)DeepSeek-AI1,418+/-103,462DeepSeek-AIMIT
92Moonshot AIKimi K2Moonshot AI1,417+/-527,637Moonshot AIModified MIT
93DeepSeek-AIDeepSeek-V3.1DeepSeek-AI1,417+/-614,958DeepSeek-AIMIT
95DeepSeek-AIDeepSeek-V3.1 (thinking)DeepSeek-AI1,417+/-711,737DeepSeek-AIMIT
96MiniMaxAIMiniMax-M2.7MiniMaxAI1,417+/-434,620MiniMaxAIModified MIT
98DeepSeek-AIDeepSeek-V3.1 TerminusDeepSeek-AI1,416+/-103,702DeepSeek-AIMIT
103Tencenthunyuan-hy3-previewTencent1,413+/-86,678Tencenttencent-hunyuan-community
114Alibabaqwen3-235b-a22b-no-thinkingAlibaba1,403+/-538,208AlibabaApache 2.0
119Alibabaqwen3-235b-a22b-thinking-2507Alibaba1,399+/-78,994AlibabaApache 2.0
121DeepSeek-AIDeepSeek-R1DeepSeek-AI1,398+/-518,524DeepSeek-AIMIT
122StepFunAIStep 3.5 FlashStepFunAI1,397+/-440,958StepFunAIProprietary
123Tencenthunyuan-vision-1.5-thinkingTencent1,396+/-122,216TencentProprietary
126DeepSeek-AIDeepSeek-V3-0324DeepSeek-AI1,396+/-445,505DeepSeek-AIMIT
127StepFunAIStep 3.5 FlashStepFunAI1,395+/-444,826StepFunAIApache 2.0
130MiniMaxAIMiniMax M2.5MiniMaxAI1,391+/-441,271MiniMaxAIModified MIT
140MiniMaxAIM2.1MiniMaxAI1,384+/-517,128MiniMaxAIMIT
143Tencenthunyuan-turbos-20250416Tencent1,382+/-610,722TencentProprietary
158MiniMaxminimax-m1MiniMax1,364+/-435,208MiniMaxApache 2.0
163DeepSeek-AIDeepSeek-V3DeepSeek-AI1,358+/-521,770DeepSeek-AIDeepSeek
173Tencenthunyuan-turbos-20250226Tencent1,349+/-122,220TencentProprietary
174StepFunAIStep3StepFunAI1,348+/-76,541StepFunAIApache 2.0
180Alibabaqwen-plus-0125Alibaba1,346+/-85,819AlibabaProprietary
182MiniMaxAIMiniMax M2MiniMaxAI1,346+/-86,868MiniMaxAIApache 2.0
185glm-4-plus-0111Zhipu1,343+/-85,760ZhipuProprietary
188Tencenthunyuan-turbo-0110Tencent1,341+/-122,290TencentProprietary
197StepFunstep-2-16k-exp-202412StepFun1,334+/-94,833StepFunProprietary
205Tencenthunyuan-large-2025-02-10Tencent1,326+/-103,738TencentProprietary
209DeepSeekdeepseek-v2.5-1210DeepSeek1,323+/-86,795DeepSeekDeepSeek
214StepFunstep-1o-turbo-202506StepFun1,320+/-79,041StepFunProprietary
215glm-4-plusZhipu AI1,319+/-526,126Zhipu AIProprietary
218Alibabaqwen-max-0919Alibaba1,318+/-616,478AlibabaQwen
222Alibabaqwen2.5-plus-1127Alibaba1,315+/-610,187AlibabaProprietary
227Tencenthunyuan-standard-2025-02-10Tencent1,311+/-103,904TencentProprietary
230DeepSeek-AIDeepSeek V2.5DeepSeek-AI1,307+/-524,572DeepSeek-AIDeepSeek
241Tencenthunyuan-large-visionTencent1,294+/-95,372TencentProprietary
265DeepSeekdeepseek-coder-v2DeepSeek1,264+/-615,147DeepSeekDeepSeek License
280Tencenthunyuan-standard-256kTencent1,233+/-122,728TencentProprietary
296Alibabaqwen1.5-32b-chatAlibaba1,203+/-621,741AlibabaQianwen LICENSE
305DeepSeek-AIDeepSeek LLM 67B ChatDeepSeek-AI1,184+/-114,932DeepSeek-AIDeepSeek License

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

01

什么是 Text Generation Arena (LMArena)?

Text Generation Arena(原 LMSYS Chatbot Arena)是目前最具影响力的大模型匿名评测平台。用户向两个身份未知的模型提问,根据回答质量投票,系统通过 Elo 算法将数百万次投票汇聚为动态排行榜,被学术界和工业界广泛引用。

02

Arena Elo 分数是如何计算的?

Elo 算法源自国际象棋评分体系。每次对战后,胜者得分上升、败者下降,幅度取决于双方原始评分差距。95% 置信区间(CI)反映该模型参与对战次数的多少:CI 越窄说明数据越充分、排名越可信。

03

为什么同一模型会出现"Thinking"和普通两个版本?

部分模型支持"扩展思考"(Extended Thinking)模式,会在给出最终答案前进行更深入的内部推理。该模式通常在逻辑推理、数学和编程任务上得分更高,但响应时延也更长、成本更高。Arena 将两种模式分开评测,以便用户根据实际需求选择。

04

如何根据排行榜选择适合自己的大语言模型?

建议综合考虑:综合性能(看 Elo 总分)、成本(闭源 API 按量计费,开源可自部署)、中文支持开源程度以及响应速度