DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
评测总览Image-to-Video Arena 图生视频模型排行榜

LMArena 评测赛道

Text GenerationImage EditText-to-VideoImage-to-VideoText-to-Image

Image-to-Video Arena 图生视频模型排行榜

基于 Image-to-Video Arena 用户匿名投票的最新AI图生视频模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

grok-imagine-video-720p

最高得分

1,402

模型数量

33

数据版本

2026年02月10日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 图生视频(Image-to-Video)模型的综合实力排名。数据来源于 LMArena 的 Image-to-Video Arena 赛道,通过真实用户的匿名盲测投票来评估模型的图像动画化能力。

评测方法概要

匿名盲测:用户上传一张图片后,由两个"隐藏身份"的模型分别生成动态视频,用户投票选出更自然流畅的一方。

Elo 评分:基于 Bradley-Terry 模型计算,科学反映模型在图生视频任务中的相对实力。

Image to Video Elo 分数排名

Top 10

图表来源:DataLearnerAI · 数据来源:LMArena

排名总表

排名模型名称得分95% CI投票数机构许可证
1grok-imagine-video-720p1,402+9/-913,668xAIProprietary
2veo-3.1-audio-1080p1,401+12/-128,979GoogleProprietary
3

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

2026年2月图生视频榜单分析

最新排名亮点

本月 LMArena Image-to-Video Arena 排行榜更新至2026年2月10日,共收录33个模型,累计投票近40万次。图生视频领域竞争激烈,新模型不断涌现。

xAI Grok 夺冠。grok-imagine-video-720p 以1402分登顶榜首,这是 xAI 首次在视频生成领域拔得头筹,虽仍为初步评估阶段(Preliminary),但其领先优势明显。grok-imagine-video-480p(1380分,第六)同样表现出色。

Google Veo 3.1 系列全面领先。veo-3.1-audio-1080p(1401分,第二)、veo-3.1-audio(1395分,第三)、veo-3.1-fast-audio(1382分,第四)和 veo-3.1-fast-audio-1080p(1381分,第五)占据了前五名中的四个席位,展示了 Google 在视频生成领域的深厚技术积累。值得注意的是,Veo 系列带 audio 的版本在排名中明显优于非 audio 版本。

国产模型表现

国产模型在图生视频领域表现活跃:

  • 生数科技 Vidu-Q3-Pro(1351分,第七)名次最高
  • 阿里 Wan2.5-I2V-Preview(1339分,第八)紧随其后
  • 字节跳动 Seedance-V1.5-Pro(1302分,第11)展示了国产视频生成技术的进步
  • 快手 Kling-2.6-Pro(1290分,第12)也有不俗表现
  • MiniMax Hailuo-2.3(1254分,第17)持续在榜单中保持竞争力

开源模型

开源模型在图生视频领域选择有限:

  • Wan-V2.2-A14B(1167分,Apache 2.0)是最佳开源图生视频模型
  • LTX-2-19B(1114分)采用社区许可协议

2026年2月市场风向标

当前最佳 (SOTA)

01

Grok Imagine Video 720p (xAI)

Elo 1402分,榜单冠军,xAI首款视频生成领先模型

02

Veo 3.1 Audio 1080p (Google)

Elo 1401分,带音频的高分辨率视频生成,仅差1分

03

Veo 3.1 Audio (Google)

Elo 1395分,Google 视频生成旗舰

国产最佳

Vidu-Q3-Pro (生数科技)
Elo 1351分,国产排名最高,位列全球第7

Wan2.5-I2V-Preview (阿里)
Elo 1339分,阿里万象系列图生视频能力出色

Seedance-V1.5-Pro (字节跳动)
Elo 1302分,字节跳动舞蹈视频生成模型

最佳开源模型

  • •Wan-V2.2-A14B (阿里)Elo 1167分,Apache 2.0许可,最佳开源图生视频模型
  • •LTX-2-19B (Lightricks)Elo 1114分,社区许可协议
  • •Pika-V2.2Elo 995分,商业闭源但价格亲民

排名解读(更新于 2026年02月10日)

2026年2月最好的AI图生视频模型是哪些?

根据 LMArena Image-to-Video Arena 2026年2月排行榜 Elo 评分,Grok Imagine Video 720p(xAI,1402分)以微弱优势领先 Veo 3.1 Audio 1080p(Google,1401分),分列前两名。Google 的 Veo 3.1 系列凭借四个变体占据了前五名中的四席。

2026年2月最好的开源AI图生视频模型是哪些?

开源图生视频领域,Wan-V2.2-A14B(阿里,1167分,Apache 2.0)是最佳选择。LTX-2-19B(Lightricks,1114分)紧随其后,但采用社区许可协议。整体来看,开源模型与闭源领先者的差距仍然较大。

国产AI图生视频模型排名如何?

国产模型表现活跃:Vidu-Q3-Pro(生数科技,1351分,第7名)领跑国产阵营,Wan2.5-I2V-Preview(阿里,1339分)和 Seedance-V1.5-Pro(字节跳动,1302分)紧随其后。Kling-2.6-Pro(快手,1290分)和 Hailuo-2.3(MiniMax,1254分)也位居全球前20。

AI 图生视频常见问题

图生视频 (Image-to-Video) 和文生视频 (Text-to-Video) 有什么区别?▼
是从无到有,仅凭文字描述生成视频;而 则是基于一张参考图片生成视频。后者能更好地控制视频的主题、构图和角色形象(Consistency),因此在广告制作、角色动画等场景中更具实用价值。

覆盖多种动画场景:包括人像动画、风景运动、物体变换、艺术创作等多元化的图生视频需求。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

veo-3.1-audio
1,395
+11/-11
23,412
Google
Proprietary
4veo-3.1-fast-audio1,382+10/-1033,565GoogleProprietary
5veo-3.1-fast-audio-1080p1,381+13/-139,408GoogleProprietary
6grok-imagine-video-480p1,380+9/-919,547xAIProprietary
7vidu-q3-pro1,351+8/-818,306ShengshuProprietary
8wan2.5-i2v-preview1,339+12/-1212,017AlibabaProprietary
9veo-3-audio1,331+11/-1134,536GoogleProprietary
10veo-3-fast-audio1,322+9/-943,885GoogleProprietary
11seedance-v1.5-pro1,302+10/-1047,635BytedanceProprietary
12kling-2.6-pro1,290+10/-1038,055KlingAIProprietary
13seedance-v1-pro1,272+7/-736,449BytedanceProprietary
14kling-2.5-turbo-1080p1,272+12/-123,871KlingAIProprietary
15veo-3-fast1,256+9/-927,855GoogleProprietary
16veo-31,254+10/-1027,719GoogleProprietary
17hailuo-2.31,254+8/-843,825MiniMaxProprietary
18vidu-q2-turbo1,244+17/-172,477ShengshuProprietary
19kling-v2.1-master1,232+7/-732,230KlingAIProprietary
20hailuo-02-pro1,228+10/-1023,822MiniMaxProprietary
21kling-v2.1-standard1,225+8/-832,239KlingAIProprietary
22vidu-q2-pro1,224+16/-162,563ShengshuProprietary
23hailuo-02-standard1,222+9/-923,636MiniMaxProprietary
24ray-31,222+19/-191,580Luma AIProprietary
25hailuo-02-fast1,194+10/-1024,564MiniMaxProprietary
26hunyuan-video-1.51,193+15/-155,425TencentProprietary
27seedance-v1-lite1,182+7/-736,098BytedanceProprietary
28wan-v2.2-a14b1,167+9/-929,434AlibabaApache 2.0
29veo-21,164+15/-1511,532GoogleProprietary
30ltx-2-19b1,114+8/-827,062Lightricksltx-2-community-license-agreement
31ray21,104+16/-1610,821Luma AIProprietary
32runway-gen4-turbo1,047+12/-127,506RunwayProprietary
33pika-v2.2995+13/-139,453PikaProprietary
Text-to-Video
Image-to-Video
让老照片动起来(Live Portrait)应该用哪个模型?▼
对于人像动画,Kling (可灵) 和 Runway Gen-4 表现优异,特别是它们能很好地处理面部微表情。如果是专注于对口型的应用,则推荐专门的 Lip Sync 模型(如 HeyGen)。
如何保持生成视频中的人物一致性?▼
使用 Image-to-Video 技术本身就是保持角色一致性的最佳方法。通过上传角色的设定图作为首帧,模型会以此为基准生成后续帧,从而最大限度地保证人物长相、服装和场景的一致性。
什么是First Frame Fidelity(首帧保真度)?▼
首帧保真度是评估图生视频模型的核心指标之一。它衡量生成视频的第一帧与输入参考图的一致程度。高保真度意味着模型能够准确保留原图的构图、主体特征和艺术风格,让视频看起来像是从这张图片自然延伸出来的运动,而非"重新创作"了一张类似的图。