加载中...
加载中...
BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | 94.3 | 2025-06-30 | 3000 | |
| 2 | 92.6 | 2024-10-22 | 未知 | |
| 3 | 92.3 | 2024-12-26 | 6810 | |
| 4 | 92.2 | 2025-03-10 | 未知 | |
| 5 | 91.7 | 2024-05-13 | 未知 | |
| 6 | 89.2 | 2024-07-23 | 4050 | |
| 7 | 89.1 | 2025-06-27 | 800 | |
| 8 | 88.87 | 2025-04-28 | 2350 | |
| 9 | 87.13 | 2025-09-11 | 800 | |
| 10 | 86.3 | 2024-09-18 | 727 | |
| 11 | 68.2 | 2024-06-27 | 90 | |
| 12 | 65.2 | 2025-02-23 | 160 | |
| 13 | 57.7 | 2024-07-23 | 80 | |
| 14 | 56.3 | 2024-09-18 | 30 | |
| 15 | 56.1 | 2024-05-22 | 70 | |
| 16 | 46.8 | 2024-09-18 | 32 | |
| 17 | 0 | 2024-02-15 | 未知 | |
| 18 | 0 | 2024-12-03 | 未知 |