2025 年 8 月 20 日,字节跳动旗下 Seed 团队正式开源了 Seed-OSS-36B 系列模型,并在 Hugging Face 与 GitHub 提供了代码、配置与文档。此次开源覆盖了 Base、Base-woSyn 和 Instruct 三个版本,许可协议为 Apache-2.0。这一系列模型的定位是通用大语言模型,支持长上下文、推理、Agent 场景,并引入了“思考预算(thinking budget)”机制以控制推理成本 。
二、主要特点与技术参数
Seed-OSS-36B 在架构和能力上有以下特点:
- 参数与层数:总参数量 36B,64 层 Transformer 结构。
- 注意力机制:采用 GQA(Grouped Query Attention),配置为 80 个注意力头,8 个 KV 头,每头维度 128。
- 隐藏层与激活:隐藏维度 5120,MLP 中间维度 27,648,激活函数为 SwiGLU,归一化为 RMSNorm。
- 位置编码:使用 RoPE(旋转位置编码),θ 值为 1e7。
- 上下文长度:支持原生 512K tokens,属于当前开源模型中最长的上下文范围之一。
- 词表规模:约 15.5 万。
- 数据规模:预训练数据约 12 万亿 tokens,知识截止时间为 2024 年 7 月 。
在版本划分上:
- Base:包含合成指令数据的预训练版。
- Base-woSyn:不含合成指令数据,便于研究对比。
- Instruct:经过指令对齐,可用于对话、问答与工具调用场景 。
此外,模型内置了 “思考预算”机制,允许调用者设置推理链条的长度,例如 512、1K、2K tokens。当预算为 0 时模型直接回答,为 -1 时则不限预算。该机制有助于在复杂推理与性能成本之间进行权衡 。
三、评测结果
根据官方模型卡与复现实验,Seed-OSS-36B 在多项基准任务上给出了数据:
- Base/woSyn 版本:在 MMLU-Pro、BBH、GSM8K、MATH、MBPP 等任务上测试,结果显示 Base(含合成指令数据)普遍优于不含版本。
- Instruct 版本:在 AIME24、AIME25、LiveCodeBench v6、TAU1、SWE-Bench 等基准上取得了较高分数,部分任务接近或达到开源模型的领先水平 。
- 长上下文评测:在 RULER 128K 等长上下文任务中给出成绩,验证了其 512K 上下文能力 。
需要注意,官方表格包含了“报告值”和“复现值”,在不同对比中应区分来源。
四、分析与洞察
从开源定位与技术实现来看,Seed-OSS-36B 具有以下几个值得关注的点:
- 长上下文的工程化探索:512K 的原生支持,使其在文档检索、法律合约、科研资料分析等需要大规模输入的任务中具有应用潜力。
- “思考预算”机制:这是少见的显式推理预算控制设计。相比于传统的直接生成方式,它为推理任务提供了可调节的成本/效果平衡,可能成为未来模型推理接口的常规配置。
- 合成数据与指令对齐的对比:通过 Base 与 Base-woSyn 的双版本,研究人员可以更清楚地分析合成指令数据对模型能力提升的具体作用。
- 开源生态与兼容性:官方提供了 Transformers 与 vLLM 的完整集成方案,社区亦已衍生出多种量化(AWQ、GPTQ、EXL2、MLX),有助于模型在不同硬件环境落地。
- 应用范围:Instruct 版本通过模板和工具调用机制,进一步面向 Agent 与 API 调用场景,体现了字节跳动在开源模型与实际业务结合上的策略思路。
📌 总结来看,Seed-OSS-36B 是一款定位清晰的开源大模型系列,在长上下文和推理预算方面提供了新的思路,其分版本设计也为研究和应用提供了灵活空间。