Magistral-Medium-2506大模型评测基准与性能对比

本页面提供了Magistral-Medium-2506,DeepSeek-V3-0324,Qwen3-235B-A22B,DeepSeek-R1-0528,Magistral-Small-2506模型在GPQA Diamond,AIME2025,LiveCodeBench,AIME 2024等评测基准中的详细对比数据，评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正，感谢！

主要模型核心信息对比

对比项	Magistral-Medium-2506	DeepSeek-V3-0324	Qwen3-235B-A22B	DeepSeek-R1-0528	Magistral-Small-2506
参数量/规模	未公开	6,810 亿	2,350 亿	6,850 亿	240 亿
开发/发布机构	MistralAI	DeepSeek-AI	阿里巴巴	DeepSeek-AI	MistralAI
发布时间	2025-06-10	2025-03-24	2025-04-28	2025-05-28	2025-06-10
最大上下文	128K	160K	128K	64K	128K
最大输出	65536	0	16384	64000	65536
开源/闭源	不开源	免费商用授权	免费商用授权	免费商用授权	免费商用授权
输入价格		0.27 美元/100万 tokens	0.7 美元/100 万tokens	0.55 美元/ 100 万tokens
输出价格		1.1 美元/100万 tokens	8.4 美元/100 万tokens	2.19 美元/ 100 万tokens
论文/报告	查看论文		查看论文	查看论文	查看论文
在线体验	立即体验	立即体验	立即体验	立即体验	立即体验

Magistral-Medium-2506模型与主流模型各评测基准得分对比表

评测基准	Magistral-Medium-2506 normal	DeepSeek-V3-0324 normal	Qwen3-235B-A22B normal	Qwen3-235B-A22B thinking	DeepSeek-R1-0528 normal	Magistral-Small-2506 normal
GPQA Diamond 常识推理	70.83	68.4	71.1	71.1	81	68.18
AIME2025 数学推理	64.95	47.7	24.7	81.5	87.5	62.76
LiveCodeBench 代码生成	59.36	49.2	70.7	70.7	73.3	55.84
AIME 2024 数学推理	73.59	59.4	85.7	85.7	91.4	70.68

Magistral-Medium-2506模型与其它模型评测结果汇总对比图

Magistral-Medium-2506模型与其它模型的API价格对比图 (文本输入/输出)

Magistral-Medium-2506模型在各评测基准详细对比