LMArena 评测赛道

Text Generation Arena 文本生成模型排行榜

Name: Text Generation Arena 文本生成模型排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

基于 Text Generation Arena 用户匿名投票的最新AI文本生成模型排行榜，涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

ernie-5.1

最高得分

1,474

模型数量

357

数据版本

2026年05月07日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前最强 AI 大模型在文本生成任务中的综合实力排名。数据来源于 LMArena（前身为 LMSYS Chatbot Arena），这是目前全球最大的 AI 模型众包评测平台。用户在平台上与两个匿名模型同时对话，并投票选出更好的回答——排名完全由真实用户的偏好决定，而非实验室基准测试。

评测方法概要

匿名盲测：用户同时与两个"隐藏身份"的模型对话，根据回答质量投票，排除品牌偏见。

Elo 评分：基于国际象棋领域的 Elo Rating 体系（Bradley-Terry 模型），通过对战结果计算每个模型的实力分数。分数越高，说明模型在真实对话中被用户选中的概率越大。

场景覆盖广泛：涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。

DataLearner 在原始数据基础上提供中文解读与深度分析，并将排行榜模型关联至 DataLearner 模型库，方便您一键查看模型详情、API 定价、评测得分等完整信息。

来源：全部国产模型

榜单历史快照月份:

排名总表

排名	模型名称	得分	95% CI	投票数	机构	许可证
14	ernie-5.1Baidu	1,474	+/-8	5,733	Baidu	Proprietary
25	qwen3.5-max-previewAlibaba	1,464	+/-5	14,558	Alibaba	Proprietary
27	DeepSeek-V4-ProDeepSeek-AI	1,463	+/-9	4,160	DeepSeek-AI	MIT
28	Kimi K2.6Moonshot AI	1,462	+/-7	7,108	Moonshot AI	Modified MIT
29	deepseek-v4-pro-thinkingDeepSeek	1,462	+/-9	3,808	DeepSeek	MIT
31	dola-seed-2.0-proBytedance	1,459	+/-5	26,587	Bytedance	Proprietary
41	Kimi K2 ThinkingMoonshot AI	1,449	+/-4	27,282	Moonshot AI	Modified MIT
53	deepseek-v4-flash-thinkingDeepSeek	1,440	+/-9	3,600	DeepSeek	MIT
62	DeepSeek-V4-FlashDeepSeek-AI	1,433	+/-9	3,506	DeepSeek-AI	MIT
63	kimi-k2.5-instantMoonshot	1,432	+/-7	8,207	Moonshot	Modified MIT
66	Kimi K2 Thinking (thinking-turbo)Moonshot AI	1,430	+/-3	52,935	Moonshot AI	Modified MIT
70	DeepSeek V3.2-Exp (thinking)DeepSeek-AI	1,425	+/-7	9,076	DeepSeek-AI	MIT
71	DeepSeek V3.2DeepSeek-AI	1,424	+/-4	44,820	DeepSeek-AI	MIT
72	qwen3-max-2025-09-23Alibaba	1,424	+/-6	9,179	Alibaba	Proprietary
74	DeepSeek V3.2-ExpDeepSeek-AI	1,423	+/-6	11,943	DeepSeek-AI	MIT
77	DeepSeek V3.2 (thinking)DeepSeek-AI	1,422	+/-4	39,071	DeepSeek-AI	MIT
78	DeepSeek-R1-0528DeepSeek-AI	1,422	+/-6	18,469	DeepSeek-AI	MIT
82	hunyuan-hy3-previewTencent	1,418	+/-8	4,582	Tencent	tencent-hunyuan-community
83	Kimi K2 0905Moonshot AI	1,418	+/-6	11,798	Moonshot AI	Modified MIT
84	DeepSeek-V3.1DeepSeek-AI	1,418	+/-6	14,985	DeepSeek-AI	MIT
85	Kimi K2Moonshot AI	1,417	+/-5	27,644	Moonshot AI	Modified MIT
86	deepseek-v3.1-terminus-thinkingDeepSeek	1,417	+/-10	3,474	DeepSeek	MIT
87	DeepSeek-V3.1 (thinking)DeepSeek-AI	1,417	+/-7	11,754	DeepSeek-AI	MIT
88	DeepSeek-V3.1 TerminusDeepSeek-AI	1,416	+/-10	3,713	DeepSeek-AI	MIT
100	MiniMax-M2.7MiniMaxAI	1,407	+/-6	13,525	MiniMaxAI	Modified MIT
105	qwen3-235b-a22b-no-thinkingAlibaba	1,403	+/-5	38,241	Alibaba	Apache 2.0
109	qwen3-235b-a22b-thinking-2507Alibaba	1,399	+/-7	9,004	Alibaba	Apache 2.0
111	Step 3.5 FlashStepFunAI	1,398	+/-5	19,649	StepFunAI	Proprietary
112	DeepSeek-R1DeepSeek-AI	1,398	+/-5	18,524	DeepSeek-AI	MIT
114	hunyuan-vision-1.5-thinkingTencent	1,396	+/-12	2,221	Tencent	Proprietary
117	DeepSeek-V3-0324DeepSeek-AI	1,395	+/-4	45,533	DeepSeek-AI	MIT
118	MiniMax M2.5MiniMaxAI	1,395	+/-4	24,885	MiniMaxAI	Modified MIT
119	Step 3.5 FlashStepFunAI	1,393	+/-4	25,112	StepFunAI	Apache 2.0
131	M2.1MiniMaxAI	1,385	+/-5	17,165	MiniMaxAI	MIT
134	hunyuan-turbos-20250416Tencent	1,382	+/-6	10,723	Tencent	Proprietary
149	minimax-m1MiniMax	1,363	+/-4	35,233	MiniMax	Apache 2.0
154	DeepSeek-V3DeepSeek-AI	1,358	+/-5	21,770	DeepSeek-AI	DeepSeek
164	hunyuan-turbos-20250226Tencent	1,348	+/-12	2,220	Tencent	Proprietary
165	Step3StepFunAI	1,348	+/-7	6,551	StepFunAI	Apache 2.0
172	MiniMax M2MiniMaxAI	1,346	+/-8	6,871	MiniMaxAI	Apache 2.0
173	qwen-plus-0125Alibaba	1,346	+/-8	5,819	Alibaba	Proprietary
176	glm-4-plus-0111Zhipu	1,343	+/-8	5,760	Zhipu	Proprietary
179	hunyuan-turbo-0110Tencent	1,340	+/-12	2,290	Tencent	Proprietary
188	step-2-16k-exp-202412StepFun	1,334	+/-9	4,833	StepFun	Proprietary
196	hunyuan-large-2025-02-10Tencent	1,326	+/-10	3,738	Tencent	Proprietary
198	deepseek-v2.5-1210DeepSeek	1,323	+/-8	6,795	DeepSeek	DeepSeek
205	step-1o-turbo-202506StepFun	1,320	+/-7	9,039	StepFun	Proprietary
206	glm-4-plusZhipu AI	1,319	+/-5	26,126	Zhipu AI	Proprietary
209	qwen-max-0919Alibaba	1,318	+/-6	16,478	Alibaba	Qwen
213	qwen2.5-plus-1127Alibaba	1,315	+/-6	10,187	Alibaba	Proprietary
218	hunyuan-standard-2025-02-10Tencent	1,311	+/-10	3,904	Tencent	Proprietary
221	deepseek-v2.5DeepSeek	1,307	+/-5	24,572	DeepSeek	DeepSeek
229	qwen2.5-72b-instructAlibaba	1,302	+/-4	39,406	Alibaba	Qwen
231	hunyuan-large-visionTencent	1,294	+/-9	5,370	Tencent	Proprietary
250	glm-4-0520Zhipu AI	1,273	+/-7	9,788	Zhipu AI	Proprietary
252	qwen2.5-coder-32b-instructAlibaba	1,270	+/-8	5,432	Alibaba	Apache 2.0
255	deepseek-coder-v2DeepSeek	1,264	+/-6	15,147	DeepSeek	DeepSeek License
257	qwen2-72b-instructAlibaba	1,261	+/-5	37,325	Alibaba	Qianwen LICENSE
269	qwen1.5-110b-chatAlibaba	1,233	+/-6	26,195	Alibaba	Qianwen LICENSE
270	hunyuan-standard-256kTencent	1,233	+/-12	2,728	Tencent	Proprietary
272	qwen1.5-72b-chatAlibaba	1,232	+/-5	39,302	Alibaba	Qianwen LICENSE
286	qwen1.5-32b-chatAlibaba	1,203	+/-6	21,741	Alibaba	Qianwen LICENSE
292	internlm2_5-20b-chatInternLM	1,191	+/-7	9,901	InternLM	Other
293	qwen1.5-14b-chatAlibaba	1,190	+/-7	17,839	Alibaba	Qianwen LICENSE
295	deepseek-llm-67b-chatDeepSeek	1,183	+/-12	4,932	DeepSeek	DeepSeek License
312	qwq-32b-previewAlibaba	1,156	+/-12	3,231	Alibaba	Apache 2.0
321	qwen1.5-7b-chatAlibaba	1,143	+/-10	4,737	Alibaba	Qianwen LICENSE
325	qwen-14b-chatAlibaba	1,137	+/-11	4,964	Alibaba	Qianwen LICENSE
343	qwen1.5-4b-chatAlibaba	1,089	+/-9	7,597	Alibaba	Qianwen LICENSE

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

常见问题 (FAQ)

什么是 Text Generation Arena (LMArena)？

Text Generation Arena（原 LMSYS Chatbot Arena）是目前最具影响力的大模型匿名评测平台。用户向两个身份未知的模型提问，根据回答质量投票，系统通过 Elo 算法将数百万次投票汇聚为动态排行榜，被学术界和工业界广泛引用。

Arena Elo 分数是如何计算的？

Elo 算法源自国际象棋评分体系。每次对战后，胜者得分上升、败者下降，幅度取决于双方原始评分差距。95% 置信区间（CI）反映该模型参与对战次数的多少：CI 越窄说明数据越充分、排名越可信。

为什么同一模型会出现"Thinking"和普通两个版本？

部分模型支持"扩展思考"（Extended Thinking）模式，会在给出最终答案前进行更深入的内部推理。该模式通常在逻辑推理、数学和编程任务上得分更高，但响应时延也更长、成本更高。Arena 将两种模式分开评测，以便用户根据实际需求选择。

如何根据排行榜选择适合自己的大语言模型？

建议综合考虑：综合性能（看 Elo 总分）、成本（闭源 API 按量计费，开源可自部署）、中文支持、开源程度以及响应速度。

关于本排行榜

评测方法概要

匿名盲测：用户同时与两个"隐藏身份"的模型对话，根据回答质量投票，排除品牌偏见。

场景覆盖广泛：涵盖编程、创意写作、数学推理、知识问答、角色扮演等高频真实场景。

排名

模型名称

得分

95% CI

投票数

机构

许可证

ernie-5.1Baidu

1,474

+/-8

5,733

Baidu

Proprietary

qwen3.5-max-previewAlibaba

1,464

+/-5

14,558

Alibaba

Proprietary

DeepSeek-V4-ProDeepSeek-AI

1,463

+/-9

4,160

DeepSeek-AI

MIT

Kimi K2.6Moonshot AI

1,462

+/-7

7,108

Moonshot AI

Modified MIT

deepseek-v4-pro-thinkingDeepSeek

1,462

+/-9

3,808

DeepSeek

MIT

dola-seed-2.0-proBytedance

1,459

+/-5

26,587

Bytedance

Proprietary

Kimi K2 ThinkingMoonshot AI

1,449

+/-4

27,282

Moonshot AI

Modified MIT

deepseek-v4-flash-thinkingDeepSeek

1,440

+/-9

3,600

DeepSeek

MIT

DeepSeek-V4-FlashDeepSeek-AI

1,433

+/-9

3,506

DeepSeek-AI

MIT

kimi-k2.5-instantMoonshot

1,432

+/-7

8,207

Moonshot

Modified MIT

Kimi K2 Thinking (thinking-turbo)Moonshot AI

1,430

+/-3

52,935

Moonshot AI

Modified MIT

DeepSeek V3.2-Exp (thinking)DeepSeek-AI

1,425

+/-7

9,076

DeepSeek-AI

MIT

DeepSeek V3.2DeepSeek-AI

1,424

+/-4

44,820

DeepSeek-AI

MIT

qwen3-max-2025-09-23Alibaba

1,424

+/-6

9,179

Alibaba

Proprietary

DeepSeek V3.2-ExpDeepSeek-AI

1,423

+/-6

11,943

DeepSeek-AI

MIT

DeepSeek V3.2 (thinking)DeepSeek-AI

1,422

+/-4

39,071

DeepSeek-AI

MIT

DeepSeek-R1-0528DeepSeek-AI

1,422

+/-6

18,469

DeepSeek-AI

MIT

hunyuan-hy3-previewTencent

1,418

+/-8

4,582

Tencent

tencent-hunyuan-community

Kimi K2 0905Moonshot AI

1,418

+/-6

11,798

Moonshot AI

Modified MIT

DeepSeek-V3.1DeepSeek-AI

1,418

+/-6

14,985

DeepSeek-AI

MIT

Kimi K2Moonshot AI

1,417

+/-5

27,644

Moonshot AI

Modified MIT

deepseek-v3.1-terminus-thinkingDeepSeek

1,417

+/-10

3,474

DeepSeek

MIT

DeepSeek-V3.1 (thinking)DeepSeek-AI

1,417

+/-7

11,754

DeepSeek-AI

MIT

DeepSeek-V3.1 TerminusDeepSeek-AI

1,416

+/-10

3,713

DeepSeek-AI

MIT

100

MiniMax-M2.7MiniMaxAI

1,407

+/-6

13,525

MiniMaxAI

Modified MIT

105

qwen3-235b-a22b-no-thinkingAlibaba

1,403

+/-5

38,241

Alibaba

Apache 2.0

109

qwen3-235b-a22b-thinking-2507Alibaba

1,399

+/-7

9,004

Alibaba

Apache 2.0

111

Step 3.5 FlashStepFunAI

1,398

+/-5

19,649

StepFunAI

Proprietary

112

DeepSeek-R1DeepSeek-AI

1,398

+/-5

18,524

DeepSeek-AI

MIT

114

hunyuan-vision-1.5-thinkingTencent

1,396

+/-12

2,221

Tencent

Proprietary

117

DeepSeek-V3-0324DeepSeek-AI

1,395

+/-4

45,533

DeepSeek-AI

MIT

118

MiniMax M2.5MiniMaxAI

1,395

+/-4

24,885

MiniMaxAI

Modified MIT

119

Step 3.5 FlashStepFunAI

1,393

+/-4

25,112

StepFunAI

Apache 2.0

131

M2.1MiniMaxAI

1,385

+/-5

17,165

MiniMaxAI

MIT

134

hunyuan-turbos-20250416Tencent

1,382

+/-6

10,723

Tencent

Proprietary

149

minimax-m1MiniMax

1,363

+/-4

35,233

MiniMax

Apache 2.0

154

DeepSeek-V3DeepSeek-AI

1,358

+/-5

21,770

DeepSeek-AI

DeepSeek

164

hunyuan-turbos-20250226Tencent

1,348

+/-12

2,220

Tencent

Proprietary

165

Step3StepFunAI

1,348

+/-7

6,551

StepFunAI

Apache 2.0

172

MiniMax M2MiniMaxAI

1,346

+/-8

6,871

MiniMaxAI

Apache 2.0

173

qwen-plus-0125Alibaba

1,346

+/-8

5,819

Alibaba

Proprietary

176

glm-4-plus-0111Zhipu

1,343

+/-8

5,760

Zhipu

Proprietary

179

hunyuan-turbo-0110Tencent

1,340

+/-12

2,290

Tencent

Proprietary

188

step-2-16k-exp-202412StepFun

1,334

+/-9

4,833

StepFun

Proprietary

196

hunyuan-large-2025-02-10Tencent

1,326

+/-10

3,738

Tencent

Proprietary

198

deepseek-v2.5-1210DeepSeek

1,323

+/-8

6,795

DeepSeek

205

step-1o-turbo-202506StepFun

1,320

+/-7

9,039

StepFun

Proprietary

206

glm-4-plusZhipu AI

1,319

+/-5

26,126

Zhipu AI

Proprietary

209

qwen-max-0919Alibaba

1,318

+/-6

16,478

Alibaba

Qwen

213

qwen2.5-plus-1127Alibaba

1,315

+/-6

10,187

Alibaba

Proprietary

218

hunyuan-standard-2025-02-10Tencent

1,311

+/-10

3,904

Tencent

Proprietary

221

deepseek-v2.5DeepSeek

1,307

+/-5

24,572

DeepSeek

229

qwen2.5-72b-instructAlibaba

1,302

+/-4

39,406

Alibaba

Qwen

231

hunyuan-large-visionTencent

1,294

+/-9

5,370

Tencent

Proprietary

250

glm-4-0520Zhipu AI

1,273

+/-7

9,788

Zhipu AI

Proprietary

252

qwen2.5-coder-32b-instructAlibaba

1,270

+/-8

5,432

Alibaba

Apache 2.0

255

deepseek-coder-v2DeepSeek

1,264

+/-6

15,147

DeepSeek

DeepSeek License

257

qwen2-72b-instructAlibaba

1,261

+/-5

37,325

Alibaba

Qianwen LICENSE

269

qwen1.5-110b-chatAlibaba

1,233

+/-6

26,195

Alibaba

Qianwen LICENSE

270

hunyuan-standard-256kTencent

1,233

+/-12

2,728

Tencent

Proprietary

272

qwen1.5-72b-chatAlibaba

1,232

+/-5

39,302

Alibaba

Qianwen LICENSE

286

qwen1.5-32b-chatAlibaba

1,203

+/-6

21,741

Alibaba

Qianwen LICENSE

292

internlm2_5-20b-chatInternLM

1,191

+/-7

9,901

InternLM

Other

293

qwen1.5-14b-chatAlibaba

1,190

+/-7

17,839

Alibaba

Qianwen LICENSE

295

deepseek-llm-67b-chatDeepSeek

1,183

+/-12

4,932

DeepSeek

DeepSeek License

312

qwq-32b-previewAlibaba

1,156

+/-12

3,231

Alibaba

Apache 2.0

321

qwen1.5-7b-chatAlibaba

1,143

+/-10

4,737

Alibaba

Qianwen LICENSE

325

qwen-14b-chatAlibaba

1,137

+/-11

4,964

Alibaba

Qianwen LICENSE

343

qwen1.5-4b-chatAlibaba

1,089

+/-9

7,597

Alibaba

Qianwen LICENSE

常见问题 (FAQ)

什么是 Text Generation Arena (LMArena)？

Arena Elo 分数是如何计算的？

为什么同一模型会出现"Thinking"和普通两个版本？

如何根据排行榜选择适合自己的大语言模型？

建议综合考虑：综合性能（看 Elo 总分）、成本（闭源 API 按量计费，开源可自部署）、中文支持、开源程度以及响应速度。