加载中...
Grok-3 - Reasoning Beta 当前已收录的代表性评测结果包括 AIME 2024(6 / 62,得分 93.30)、LiveCodeBench(24 / 108,得分 79.40)、GPQA Diamond(37 / 162,得分 84.60)。