DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
← 返回总榜单

Text Generation Arena 文本生成模型排行榜

基于 Text Generation Arena 用户匿名投票的最新AI文本生成模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

数据版本: 2026年01月24日

数据来源: LM Arena

Top 10 Text Generation Elo Score

排名模型名称得分95% CI投票数机构许可证
1gemini-3-pro1,490±527,827GoogleProprietary
2grok-4.1-thinking1,477±527,985xAIProprietary
3gemini-3-flash1,472±613,245GoogleProprietary
4claude-opus-4.5-20251101-thinking-32k1,470±519,898AnthropicProprietary
5claude-opus-4.5-202511011,467±521,241AnthropicProprietary
6grok-4.11,465±532,015xAIProprietary
7gemini-3-flash (thinking-minimal)1,462±79,644GoogleProprietary
8ernie-5.0-01101,459±94,829BaiduProprietary
9gpt-5.1-high1,458±524,439OpenAIProprietary
10gemini-2.5-pro1,451±387,641GoogleProprietary
11claude-sonnet-4.5-20250929-thinking-32k1,451±438,441AnthropicProprietary
12ernie-5.0-preview-12031,450±79,709BaiduProprietary
13claude-sonnet-4.5-202509291,450±435,025AnthropicProprietary
14claude-opus-4.1-20250805-thinking-16k1,449±450,061AnthropicProprietary
15claude-opus-4.1-202508051,445±367,599AnthropicProprietary
16gpt-5.21,445±95,187OpenAIProprietary
17gpt-4.5-preview-2025-02-271,444±614,549OpenAIProprietary
18chatgpt-4o-latest-202503261,442±374,853OpenAIProprietary
19glm-4.71,441±79,556Z.aiMIT
20gpt-5.2-high1,436±84,594OpenAIProprietary
21gpt-5.11,435±526,241OpenAIProprietary
22gpt-5-high1,435±532,008OpenAIProprietary
23qwen2-max-preview1,434±527,894AlibabaProprietary
24o3-2025-04-161,433±481,435OpenAIProprietary
25grok-4.1-fast-reasoning1,430±521,701xAIProprietary
26kimi-k1-thinking-turbo1,429±526,054MoonshotProprietary
27gpt-5-chat1,426±621,883OpenAIProprietary
28glm-4.61,425±433,537Z.aiMIT
29qwen2-max-2025-09-191,424±69,225AlibabaProprietary
30claude-opus-4-20250514-thinking-10k1,424±438,020AnthropicProprietary
31deepseek-v3.2-exp1,423±711,072DeepSeekMIT
32deepseek-v3.2-exp-thinking1,423±78,017DeepSeekMIT
33qwen2-200b-v22b-instruct-25071,422±362,599AlibabaApache 2.0
34grok-4-fast-chat1,422±87,601xAIProprietary
35deepseek-v3.2-thinking1,420±515,802DeepSeekMIT
36deepseek-v3.21,418±520,503DeepSeekMIT
37deepseek-v3-09281,418±616,306DeepSeekMIT
38kimi-k1-0905-preview1,418±611,381MoonshotProprietary
39ernie-5.0-preview-10221,417±94,843BaiduProprietary
40kimi-k1-0711-preview1,417±528,603MoonshotProprietary
41deepseek-v3.1-thinking1,417±711,364DeepSeekMIT
42deepseek-v3.11,417±615,294DeepSeekMIT
43deepseek-v3.1-twinInUse1,416±103,766DeepSeekMIT
44deepseek-v3.1-twinInUse-thinking1,416±103,352DeepSeekMIT
45qwen2-vl-236b-a23b-instruct1,415±611,700AlibabaApache 2.0
46claude-opus-4-202505141,413±445,596AnthropicProprietary
47gpt-4.5-2025-04-141,413±452,274OpenAIProprietary
48mistral-medium-25061,412±355,668MistralProprietary
49mistral-large-31,411±516,762MistralApache 2.0
50grok-3-preview-02-241,410±613,301xAIProprietary

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

评估标准与方法

本排行榜数据来源于 LMSYS Chatbot Arena。其采用业界公认的"众包对战"模式,通过海量真实用户的盲测来评估模型能力。

盲测机制 (Blind Test)

用户在不知道模型名称的情况下,对两个模型针对同一 Prompt 生成的回复进行 Side-by-Side (SBS) 对比投票,完全并排除品牌偏见。

Elo 评分系统

基于 Bradley-Terry 模型计算的 Elo Rating,能最科学地反映模型在动态对战中的相对实力,是目前 LLM 领域最通用的评价标准。

广泛的场景覆盖

测试数据涵盖了编程、创意写作、数学推理、角色扮演等真实高频场景,确保排名的普适性和参考价值。