DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表HunyuanImage-3.0-Instruct
HU

HunyuanImage-3.0-Instruct

Tencent HunyuanImage-3.0-Instruct

发布时间: 2026-01-2830
在线体验GitHubHugging Face
模型参数
800.0亿
上下文长度
128K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

模型基本信息

推理过程
不支持
上下文长度
128K tokens
最大输出长度
4096 tokens
模型类型
视觉大模型
发布时间
2026-01-28
模型文件大小
170GB
MoE架构
是
总参数 / 激活参数
800.0 亿 / 130 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT
预训练权重开源
TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT- 免费商用授权
GitHub 源码
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face
https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
在线体验
https://hunyuan.tencent.com/image

官方介绍与博客

官方论文
HunyuanImage 3.0 Technical Report
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本0--
图片00
缓存计费Cache
模态输入 Cache输出 Cache
文本0--
图片00
超上下文计费Extended
模态输入输出
文本0--
图片00

评测得分

当前尚无可展示的评测数据。

发布机构

腾讯AI实验室
腾讯AI实验室
查看发布机构详情

模型解读

1. 模型简介与核心特点

HunyuanImage-3.0-Instruct 是腾讯混元(Tencent Hunyuan)团队于 2026 年 1 月正式开源的旗舰级图像生成与编辑模型。作为 HunyuanImage 3.0 系列的核心成员,它专为高难度的指令遵循(Instruction Following)和图像编辑任务设计。该模型采用了先进的 MoE(Mixture of Experts) 架构,是目前业界规模最大的开源图像生成模型之一。其核心目标是解决复杂自然语言指令下的精确图像编辑、多图融合及长文本理解问题,通过引入原生的思维链(Chain-of-Thought, CoT)机制,显著提升了模型对用户意图的推理与执行能力。


2. 架构与技术规格

  • 模型参数:总参数量高达 800亿(80B),推理解码时的激活参数量约为 130亿(13B)。
  • 架构特点:采用了统一的自回归多模态架构(Unified Autoregressive Framework),区别于传统的纯 DiT(Diffusion Transformer)架构。该架构将多模态理解与生成统一在同一框架下,结合 MoE 技术,在保证巨大参数容量的同时维持了高效的推理性能。
  • 训练机制:引入了腾讯自研的 MixGRPO(Group Relative Policy Optimization)算法进行后训练(Post-training),结合奖励模型的多轮迭代,大幅增强了模型对指令的响应能力和非编辑区域的保持能力。

3. 核心能力与支持模态

  • 模态支持:支持文本+图像输入,图像输出。具备强大的多模态理解能力。
  • 指令编辑:支持通过自然语言指令对图像进行精确编辑(如“把那只猫换成狗”、“让背景变成下雨天”),无需复杂的掩码辅助。
  • 多图融合:能够提取多张参考图像中的主体或元素(如人物、物体),并将其自然地融合到新的场景中,生成多人合照或全新构图。
  • 原生推理:具备类似 LLM 的原生思维链(Native CoT)能力,在生成图像前会先进行显式的逻辑推理,从而更准确地解析复杂的复合指令。

4. 性能与基准评测

根据官方及社区的初步评测,HunyuanImage-3.0-Instruct 在图像编辑准确性、多图融合的一致性以及长文本生成的语义对齐上,表现达到了开源领域的 SOTA(State-of-the-Art)水平,在 LMArena 等基准测试的图像编辑榜单中名列前茅,综合能力足以对标顶尖的闭源商业模型(如 Midjourney v6 等)。


5. 应用场景与限制

  • 推荐用例:专业海报设计(文字与图像的精准排版)、电商素材生成、创意图像编辑、老照片修复与风格迁移、游戏资产生成的概念验证等。
  • 已知局限:尽管支持多语言,但对中文指令的优化最为深度;在极高分辨率(如 4K 以上)的生成上可能仍需分块处理;MoE 架构对显存带宽要求较高,本地部署门槛相对较高(推荐多卡环境)。

6. 访问方式与许可

  • 开源情况:模型权重及推理代码已在 GitHub 和 Hugging Face 完整开源。
  • 许可协议:遵循 TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT,允许学术研究及在遵守协议前提下的免费商业使用。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码