模型评测对比
最新基准汇总
GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型的评测对比(基于MMLU、GPQA Diamond、AIME 2024等评测基准)
本页面提供GPT OSS 20B,Kimi K2,Qwen3-235B-A22B-Thinking,GPT OSS 120B模型在MMLU,GPQA Diamond,AIME 2024,AIME2025,HLE等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
GPT OSS 20B
OpenAI 发布的推理大模型模型。
Kimi K2
Moonshot AI 发布的聊天大模型模型。
核心信息
开发机构
Moonshot AI

发布时间
2025-07-11
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
10,000 亿
激活参数量
320 亿
模型大小
1.01TB
推理能力
推理速度
思考模式
深度思考
最大上下文
131K
最大输出
134144
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.6 美元/100 万tokens
输出价格
2.5 美元/100 万tokens
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
阅读
相关链接
Qwen3-235B-A22B-Thinking
阿里巴巴 发布的聊天大模型模型。
模式筛选:
GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型各评测基准得分对比表
评测基准 | GPT OSS 20B thinking | GPT OSS 20B thinking + 使用工具 | Kimi K2 normal | Qwen3-235B-A22B-Thinking thinking | GPT OSS 120B thinking | GPT OSS 120B thinking + 使用工具 |
---|---|---|---|---|---|---|
MMLU
知识问答
|
85.3 | 0 | 89.5 | 0 | 90 | 0 |
GPQA Diamond
常识推理
|
71.5 | 0 | 75.1 | 81.1 | 80.1 | 0 |
AIME 2024
数学推理
|
0 | 96 | 69.6 | 0 | 0 | 96.6 |
AIME2025
数学推理
|
79 | 98.7 | 54 | 92.3 | 83 | 97.9 |
HLE
知识问答
|
10.9 | 17.3 | 4.7 | 18.2 | 14.9 | 19 |