模型评测对比 最新基准汇总

GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型的评测对比(基于MMLU、GPQA Diamond、AIME 2024等评测基准)

本页面提供GPT OSS 20B,Kimi K2,Qwen3-235B-A22B-Thinking,GPT OSS 120B模型在MMLU,GPQA Diamond,AIME 2024,AIME2025,HLE等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。

GPT OSS 20B
GPT OSS 20B

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-08-06
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 210 亿
激活参数量 36 亿
模型大小 42GB
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 4096
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格
输出价格
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
Kimi K2
Kimi K2

Moonshot AI 发布的聊天大模型模型。

核心信息
开发机构 Moonshot AI Moonshot AI
发布时间 2025-07-11
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 10,000 亿
激活参数量 320 亿
模型大小 1.01TB
推理能力
推理速度
思考模式
深度思考
最大上下文 131K
最大输出 134144
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.6 美元/100 万tokens
输出价格 2.5 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
Qwen3-235B-A22B-Thinking
Qwen3-235B-A22B-Thinking

阿里巴巴 发布的聊天大模型模型。

核心信息
开发机构 阿里巴巴 阿里巴巴
发布时间 2025-07-30
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 305 亿
激活参数量 33 亿
模型大小 31.17GB
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 16384
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.2 美元/100 万tokens
输出价格 2.4 美元/100 万tokens
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
GPT OSS 120B
GPT OSS 120B

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2025-08-06
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 117 亿
激活参数量 51 亿
模型大小 240GB
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 4096
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格
输出价格
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
模式筛选:

GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型各评测基准得分对比表

评测基准 GPT OSS 20B thinking GPT OSS 20B thinking + 使用工具 Kimi K2 normal Qwen3-235B-A22B-Thinking thinking GPT OSS 120B thinking GPT OSS 120B thinking + 使用工具
MMLU
知识问答
85.3 0 89.5 0 90 0
GPQA Diamond
常识推理
71.5 0 75.1 81.1 80.1 0
AIME 2024
数学推理
0 96 69.6 0 0 96.6
AIME2025
数学推理
79 98.7 54 92.3 83 97.9
HLE
知识问答
10.9 17.3 4.7 18.2 14.9 19

GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型评测结果汇总对比图

GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型的API价格对比图 (文本输入/输出)

GPT OSS 20B与Kimi K2、Qwen3-235B-A22B-Thinking、GPT OSS 120B模型在各评测基准详细对比