Hunyuan-MT-7B

Name: Hunyuan-MT-7B
Availability: InStock
Author: 腾讯AI实验室

翻译大模型

Hunyuan-MT-7B

Release date: 2025-09-01更新于: 2025-09-06 14:41:45610

Live demo GitHub Hugging Face Compare

Parameters

70.0亿

Context length

256K

Chinese support

Supported

Reasoning ability

Hunyuan-MT-7B is an AI model published by 腾讯AI实验室, released on 2025-09-01, for 翻译大模型, with 70.0B parameters, and 256K tokens context length, requiring about 16.055 GB storage, under the TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Hunyuan-MT-7B

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

256K tokens

Max output length

4096 tokens

Model type

Hunyuan-MT-7B

Open source & experience

Code license

TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT

Weights license

TENCENT HUNYUAN COMMUNITY LICENSE AGREEMENT- 免费商用授权

GitHub repo

https://github.com/Tencent-Hunyuan/Hunyuan-MT

Hugging Face

https://huggingface.co/tencent/Hunyuan-MT-7B

Hunyuan-MT-7B

Official resources

Paper

No paper available

DataLearnerAI blog

No blog post yet

Hunyuan-MT-7B

API details

API speed

4/5

No public API pricing yet.

Hunyuan-MT-7B

Benchmark Results

No benchmark data to show.

Hunyuan-MT-7B

Publisher

腾讯AI实验室

View publisher details

Hunyuan-MT-7B

Model Overview

2025 年 9 月 1 日，腾讯混元团队正式开源了 Hunyuan-MT-7B 翻译模型及其融合版本 Hunyuan-MT-Chimera-7B。在 ACL WMT2025 国际机器翻译大赛中，该系列模型在 31 个语种项目中斩获 30 项第一名，展现了强大的多语种翻译能力。它不仅支持 33 种主流语言之间互译，还特别支持包括藏语、维吾尔语、哈萨克语、蒙古语等在内的 中国少数民族语言与汉语互译，在语言覆盖度上极具突破性。

模型规格

参数规模：Hunyuan-MT-7B 约有 70 亿参数，在保持较强性能的同时兼顾了推理速度与部署成本。
融合模型：Chimera-7B 是业内首个开源的翻译集成模型，能够将多个翻译系统结果融合，生成更加优质的译文。

上下文能力

尽管官方未明确披露上下文长度，但作为混元模型家族的一部分，Hunyuan 系列具备 原生支持超长上下文（最长可达 256K tokens） 的能力。这意味着在长文本翻译任务中，它有潜力展现稳定的性能表现。

训练流程与技术亮点

Hunyuan-MT-7B 的研发团队构建了一整套五阶段训练流程，保证了模型的翻译质量与适用性。

通用预训练使用 1.3 万亿 tokens，覆盖 112 种语言与方言。数据通过多维度过滤系统筛选，并打上学科、行业、主题标签，保证多样性和高质量。
翻译导向预训练混合单语与平行语料，通过比例调控与灾难性遗忘缓解策略，保证翻译专用能力与通用能力的平衡。
监督微调（SFT）阶段一：使用约 300 万对平行语料，包括公开数据、人校对语料与合成语料。阶段二：使用约 26.8 万对高质量语料，经过大模型筛选与人工审核，进一步提升准确性。
强化学习（RL）结合 XComet-XXL 打分、术语匹配、重复惩罚等奖励信号，提升译文的忠实度与流畅度。
弱到强融合强化学习在推理阶段同时输入多个译文版本，模型生成“精炼译文”，在低资源语种上的翻译质量提升尤为显著。

性能评估

在自动评测指标 XCOMET-XXL 上，Hunyuan-MT-7B 的表现显著优于同类模型，尤其在中文与少数民族语互译方面取得了行业领先的分数。

在人类评测中，中英双向翻译的平均分数接近满分，远超 Google 翻译等传统系统，体现了其在语义准确性和可读性上的优势。

部署与效率

推理速度：7B 参数规模使其在保证性能的同时，能够以更低的资源消耗实现更快的推理。
量化优化：通过腾讯自研的 FP8 量化工具 AngelSlim，推理性能提升约 30%。
应用落地：该模型已应用于腾讯会议、企业微信、QQ 浏览器、翻译君等多个产品，验证了其在大规模应用场景下的稳定性和实用性。

总结与展望

Hunyuan-MT-7B 的开源标志着翻译大模型进入一个新的阶段。它具备以下几个显著特点：

以 70 亿参数规模实现高质量翻译，兼顾性能与部署成本；
覆盖主流语言和少数民族语言，在跨语种、低资源任务中表现突出；
通过完整的训练与优化流程，保证了模型的可扩展性和实用性；
已在实际应用场景中得到验证，具备商业落地潜力。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送