Llama 4 Behemoth Instruct大模型评测基准与性能对比
本页面提供了Llama 4 Behemoth Instruct,Gemini 2.5 Pro Experimental 03-25,DeepSeek-V3-0324,GPT-4.5,Claude Sonnet 3.7,DeepSeek-R1模型在MMLU Pro,GPQA Diamond,LiveCodeBench,MATH-500等评测基准中的详细对比数据,评测数据来源当前系统收录结果生成。数据如有问题可以通过微信公众号联系更正,感谢!
详细评测数据对比
评测基准 (Benchmark) | Llama 4 Behemoth Instruct | Gemini 2.5 Pro Experimental 03-25 | DeepSeek-V3-0324 | GPT-4.5 | Claude Sonnet 3.7 | DeepSeek-R1 |
---|---|---|---|---|---|---|
82.20 | 0.00 | 81.20 | 86.10 | 0.00 | 84.00 | |
73.70 | 84.00 | 68.40 | 71.40 | 68.00 | 71.50 | |
49.40 | 70.40 | 49.20 | 46.40 | 0.00 | 65.90 | |
95.00 | 0.00 | 94.00 | 90.70 | 82.20 | 97.30 |