HunyuanImage-3.0-Instruct

Name: Tencent HunyuanImage-3.0-Instruct
Author: 腾讯AI实验室

视觉大模型

Tencent HunyuanImage-3.0-Instruct

发布时间: 2026-01-28653

在线体验 GitHub Hugging Face Compare

模型参数

800亿

上下文长度

128K

中文支持

支持

推理能力

Tencent HunyuanImage-3.0-Instruct 是由腾讯AI实验室发布的 AI 模型，发布时间为 2026-01-28，定位为视觉大模型，参数规模约为 800亿，上下文长度为 128K，模型文件大小约 170GB，采用 TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

HunyuanImage-3.0-Instruct

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

128K tokens

最大输出长度

4K tokens

模型类型

视觉大模型

输入/输出模态

文本、图像 → 图像

发布时间

2026-01-28

模型文件大小

170GB

MoE架构

是

总参数 / 激活参数

800亿 / 130亿

知识截止

暂无数据

HunyuanImage-3.0-Instruct

开源和体验地址

代码开源状态

TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT

预训练权重开源

TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT- 免费商用授权

GitHub 源码

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Hugging Face

https://huggingface.co/tencent/HunyuanImage-3.0-Instruct

在线体验

https://hunyuan.tencent.com/image

HunyuanImage-3.0-Instruct

官方介绍与博客

官方论文

HunyuanImage 3.0 Technical Report

DataLearnerAI博客

暂无介绍博客

HunyuanImage-3.0-Instruct

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

HunyuanImage-3.0-Instruct

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

HunyuanImage-3.0-Instruct

发布机构

腾讯AI实验室

查看发布机构详情

Tencent HunyuanImage-3.0-Instruct

模型解读

1. 模型简介与核心特点

HunyuanImage-3.0-Instruct 是腾讯混元（Tencent Hunyuan）团队于 2026 年 1 月正式开源的旗舰级图像生成与编辑模型。作为 HunyuanImage 3.0 系列的核心成员，它专为高难度的指令遵循（Instruction Following）和图像编辑任务设计。该模型采用了先进的 MoE（Mixture of Experts） 架构，是目前业界规模最大的开源图像生成模型之一。其核心目标是解决复杂自然语言指令下的精确图像编辑、多图融合及长文本理解问题，通过引入原生的思维链（Chain-of-Thought, CoT）机制，显著提升了模型对用户意图的推理与执行能力。

2. 架构与技术规格

模型参数：总参数量高达 800亿（80B），推理解码时的激活参数量约为 130亿（13B）。
架构特点：采用了统一的自回归多模态架构（Unified Autoregressive Framework），区别于传统的纯 DiT（Diffusion Transformer）架构。该架构将多模态理解与生成统一在同一框架下，结合 MoE 技术，在保证巨大参数容量的同时维持了高效的推理性能。
训练机制：引入了腾讯自研的 MixGRPO（Group Relative Policy Optimization）算法进行后训练（Post-training），结合奖励模型的多轮迭代，大幅增强了模型对指令的响应能力和非编辑区域的保持能力。

3. 核心能力与支持模态

模态支持：支持文本+图像输入，图像输出。具备强大的多模态理解能力。
指令编辑：支持通过自然语言指令对图像进行精确编辑（如“把那只猫换成狗”、“让背景变成下雨天”），无需复杂的掩码辅助。
多图融合：能够提取多张参考图像中的主体或元素（如人物、物体），并将其自然地融合到新的场景中，生成多人合照或全新构图。
原生推理：具备类似 LLM 的原生思维链（Native CoT）能力，在生成图像前会先进行显式的逻辑推理，从而更准确地解析复杂的复合指令。

4. 性能与基准评测

根据官方及社区的初步评测，HunyuanImage-3.0-Instruct 在图像编辑准确性、多图融合的一致性以及长文本生成的语义对齐上，表现达到了开源领域的 SOTA（State-of-the-Art）水平，在 LMArena 等基准测试的图像编辑榜单中名列前茅，综合能力足以对标顶尖的闭源商业模型（如 Midjourney v6 等）。

5. 应用场景与限制

推荐用例：专业海报设计（文字与图像的精准排版）、电商素材生成、创意图像编辑、老照片修复与风格迁移、游戏资产生成的概念验证等。
已知局限：尽管支持多语言，但对中文指令的优化最为深度；在极高分辨率（如 4K 以上）的生成上可能仍需分块处理；MoE 架构对显存带宽要求较高，本地部署门槛相对较高（推荐多卡环境）。

6. 访问方式与许可

开源情况：模型权重及推理代码已在 GitHub 和 Hugging Face 完整开源。
许可协议：遵循 TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT，允许学术研究及在遵守协议前提下的免费商业使用。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送