加载中...
GLM-4.7 当前已收录的代表性评测结果包括 LiveCodeBench(10 / 108,得分 84.90)、τ²-Bench(6 / 39,得分 87.40)、HLE(21 / 119,得分 42.80)。