Text-to-Video Arena AI视频生成模型排行榜
基于 Text-to-Video Arena 用户匿名投票的最新AI视频生成模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。
榜首模型
Seedance 2.0
最高得分
1,457
模型数量
39
数据版本
2026年05月12日
数据来源: LM Arena
关于本排行榜
本排行榜展示了当前 AI 文字生成视频(Text-to-Video)模型的综合实力排名。数据来源于 LMArena 的 Text-to-Video Arena 赛道,通过真实用户的匿名盲测投票来评估模型的视频生成质量。
评测方法概要
匿名盲测:用户提交文字描述后,由两个"隐藏身份"的模型分别生成视频,用户投票选出效果更好的一方。
Elo 评分:基于 Bradley-Terry 模型计算,分数越高代表模型在视频生成质量上越受用户青睐。
覆盖多种生成场景:包括自然风景、人物动作、创意动画、产品展示等多样化的视频生成需求。
DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。
排名总表
| 排名 | 模型名称 | 得分 | 95% CI | 投票数 | 机构 | 许可证 |
|---|---|---|---|---|---|---|
| Seedance 2.0字节跳动Seed团队 | 1,457 | +/-9 | 22,185 | 字节跳动Seed团队 | Proprietary | |
happyhorse-1.0Alibaba-ATH | 1,435 | +/-9 | 6,266 | Alibaba-ATH | Proprietary | |
Veo 3.1 Generate (Preview)Google Deep Mind | 1,372 | +/-11 | 13,978 | Google Deep Mind | Proprietary | |
| 4 | Sora 2OpenAI | 1,368 | +/-8 | 33,475 | OpenAI | Proprietary |
| 5 | Veo 3.1 Generate (Preview)Google Deep Mind | 1,366 | +/-14 | 13,689 | Google Deep Mind | Proprietary |
| 6 | Veo 3.1 Fast (Preview)Google Deep Mind | 1,364 | +/-11 | 39,325 | Google Deep Mind | Proprietary |
| 7 | Veo 3.1 Fast (Preview)Google Deep Mind | 1,364 | +/-11 | 14,089 | Google Deep Mind | Proprietary |
| 8 | 1,357 | +/-7 | 108,058 | xAI | Proprietary | |
| 9 | Veo 3.1 Fast (Preview)Google Deep Mind | 1,349 | +/-11 | 25,154 | Google Deep Mind | Proprietary |
| 10 | wan2.6-t2vAlibaba | 1,341 | +/-11 | 24,738 | Alibaba | Proprietary |
| 11 | Veo 3.1 Generate (Preview)Google Deep Mind | 1,341 | +/-12 | 18,966 | Google Deep Mind | Proprietary |
| 12 | Sora 2OpenAI | 1,339 | +/-7 | 44,913 | OpenAI | Proprietary |
| 13 | Wan2.1-T2V-14B阿里巴巴 | 1,260 | +/-13 | 13,064 | 阿里巴巴 | Proprietary |
| 14 | Seedance 2.0字节跳动Seed团队 | 1,258 | +/-7 | 60,453 | 字节跳动Seed团队 | Proprietary |
| 15 | Veo 3.1 Generate (Preview)Google Deep Mind | 1,254 | +/-11 | 14,949 | Google Deep Mind | Proprietary |
| 16 | Veo 3.1 Fast (Preview)Google Deep Mind | 1,250 | +/-12 | 15,230 | Google Deep Mind | Proprietary |
| 17 | pixverse-v5.6Pixverse | 1,238 | +/-9 | 20,975 | Pixverse | Proprietary |
| 18 | runway-gen-4.5Runway | 1,235 | +/-12 | 20,839 | Runway | Proprietary |
| 19 | Kling 2.5 Turbo昆仑万维 | 1,221 | +/-17 | 2,104 | 昆仑万维 | Proprietary |
| 20 | Kling 2.5 Turbo昆仑万维 | 1,219 | +/-7 | 60,034 | 昆仑万维 | Proprietary |
| 21 | p-videoPruna | 1,209 | +/-16 | 7,041 | Pruna | Proprietary |
| 22 | ray-3Luma AI | 1,207 | +/-22 | 1,121 | Luma AI | Proprietary |
| 23 | Kling 2.5 Turbo昆仑万维 | 1,207 | +/-27 | 1,193 | 昆仑万维 | Proprietary |
| 24 | 1,199 | +/-12 | 9,370 | MiniMaxAI | Proprietary | |
| 25 | 1,199 | +/-7 | 50,014 | MiniMaxAI | Proprietary | |
| 26 | Seedance 2.0字节跳动Seed团队 | 1,192 | +/-11 | 12,122 | 字节跳动Seed团队 | Proprietary |
| 27 | 1,181 | +/-12 | 9,333 | MiniMaxAI | Proprietary | |
| 28 | kandinsky-5.0-t2v-proKandinsky | 1,176 | +/-21 | 2,020 | Kandinsky | MIT |
| 29 | Hunyuan-A13B-Instruct腾讯AI实验室 | 1,170 | +/-16 | 4,273 | 腾讯AI实验室 | tencent-hunyuan-community |
| 30 | Veo 3.1 Generate (Preview)Google Deep Mind | 1,164 | +/-16 | 6,509 | Google Deep Mind | Proprietary |
| 31 | Kling 2.5 Turbo昆仑万维 | 1,164 | +/-9 | 14,049 | 昆仑万维 | Proprietary |
| 32 | ltx-2-19blightricks | 1,135 | +/-9 | 42,742 | lightricks | ltx-2-community-license-agreement |
| 33 | Wan2.1-T2V-14B阿里巴巴 | 1,133 | +/-15 | 10,419 | 阿里巴巴 | Apache 2.0 |
| 34 | kandinsky-5.0-t2v-liteKandinsky | 1,115 | +/-18 | 1,475 | Kandinsky | MIT |
| 35 | Seedance 2.0字节跳动Seed团队 | 1,114 | +/-9 | 16,214 | 字节跳动Seed团队 | Proprietary |
| 36 | soraOpenAI | 1,070 | +/-16 | 4,080 | OpenAI | Proprietary |
| 37 | ray2Luma AI | 1,066 | +/-17 | 5,217 | Luma AI | Proprietary |
| 38 | pika-v2.2Pika | 1,009 | +/-15 | 5,728 | Pika | Proprietary |
| 39 | mochi-v1Genmo AI | 1,007 | +/-16 | 5,862 | Genmo AI | Apache 2.0 |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。
2026年3月文生视频榜单分析
最新排名亮点
本次 LMArena Text-to-Video Arena 榜单更新至 2026 年 3 月 6 日,共收录 37 个模型,累计投票约 24.7 万次。头部格局相比上个版本继续向 Google Veo 系列集中,前五名中 Google 占据四席。
Veo 3.1 系列继续统治文生视频赛道。veo-3.1-audio-1080p 以 1381 分位列第一,veo-3.1-fast-audio-1080p 以 1378 分位列第二,veo-3.1-audio 以 1371 分位列第三。高分辨率和音频增强版本依然明显强于旧版 Veo 3 / Veo 2。
OpenAI Sora 系列保持第一梯队竞争力。sora-2-pro 以 1367 分位列第 4,sora-2 以 1342 分位列第 9,初代 sora 则处于榜单后段。和 Veo 相比,Sora 在顶级版本上仍有竞争力,但整体阵容厚度略弱。
xAI Grok 继续扮演高潜力挑战者。grok-imagine-video-720p 以 1358 分排在第 6,已经进入顶级阵营边缘,说明其在视频生成质量上具备相当强的即战力。
国产模型表现
国产模型中,wan2.6-t2v 以 1347 分排名第 8,是当前文生视频榜中最强的国产模型;它明显高于 wan2.5-t2v-preview(1268 分),说明阿里在 Wan 系列上迭代有效。
字节跳动的 seedance-v1.5-pro 以 1255 分排在第 13,仍然是国产第一梯队的重要成员;seedance-v1-pro 和 seedance-v1-lite 也都保留在榜单中。快手 kling-2.6-pro、kling-o1-pro 和 kling-v2.1-master 则继续构成中段竞争力量。
MiniMax 的 hailuo-02-pro 与 hailuo-2.3 表现接近,位于 1200 分附近,稳定处于中游。腾讯的 hunyuan-video-1.5 也保持在榜,但与头部模型仍有较大差距。
开源模型表现
当前开源阵营里,wan-v2.2-a14b(Apache 2.0)仍是最值得关注的文生视频开源方案之一;mochi-v1 同样提供 Apache 2.0 许可,但分数明显落后于头部闭源模型。
MIT 许可的 kandinsky-5.0-t2v-pro 和 kandinsky-5.0-t2v-lite 仍在榜单中,但样本量偏小、排名靠后。整体看,开源文生视频模型与 Veo、Sora 及国产头部闭源模型之间仍然存在比较明显的质量差距。
2026年5月市场风向标
当前最佳 (SOTA)
Veo 3.1 Audio 1080p
Elo 1381,当前文生视频榜单第一名
Veo 3.1 Fast-Audio 1080p
Elo 1378,高速版本里表现最强
Sora-2-Pro
Elo 1367,OpenAI 当前最强文生视频模型
国产最佳
Wan2.6-T2V
Elo 1347,当前国产文生视频模型第一名
Seedance-V1.5-Pro
Elo 1255,字节跳动文生视频主力模型
Kling-2.6-Pro
Elo 1219,快手可灵系列代表模型
最佳开源模型
- •Wan-V2.2-A14BApache 2.0,当前最具代表性的开源文生视频模型之一
- •Kandinsky-5.0-T2V-ProMIT,开源阵营里分数较高
- •Mochi-V1Apache 2.0,完全开源的视频生成基础方案
排名解读(更新于 2026年05月12日)
2026年3月最好的文生视频模型是哪些?
根据 2026 年 3 月 6 日的 LMArena 文生视频榜单,Veo 3.1 Audio 1080p、Veo 3.1 Fast-Audio 1080p 和 Sora-2-Pro 是当前最强的三款模型,其中 Google Veo 系列整体优势最明显。
2026年3月最好的国产文生视频模型是哪些?
国产阵营中,Wan2.6-T2V 当前排名最高,其后是 Seedance-V1.5-Pro 和 Kling-2.6-Pro。如果看中开源可用性,Wan-V2.2-A14B 仍是重要选择。
2026年3月最好的开源文生视频模型是哪些?
从当前榜单看,Wan-V2.2-A14B、Kandinsky-5.0-T2V-Pro 和 Mochi-V1 是最主要的开源文生视频模型代表,但和头部闭源模型相比仍有明显差距。
AI 视频生成常见问题
Text-to-Video Arena 是如何排名的?
排名完全基于用户的 Side-by-Side (SBS) 盲测投票。用户输入相同 Prompt,系统展示两个匿名模型生成的视频,用户选择更好的一方,再用 Elo 类算法汇总形成排行榜。
什么是 Audio-Video Sync(音画同步)?为什么它很重要?
Audio-Video Sync 指生成视频时同步生成与画面动作匹配的音效或语音。音画同步能减少后期配音和剪辑工作,让生成视频更接近可直接使用的成片。
AI文生视频适合哪些应用场景?
AI 文生视频常用于短视频创作、广告营销、电商展示、影视预览、游戏过场和教育演示等场景。
目前生成时间最长的模型是哪个?
视频生成时长会随着模型版本和产品套餐快速变化。选择时建议同时查看官方最新限制、长视频一致性、清晰度和生成成本,而不只看最长秒数。


