加载中...
加载中...
BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题,这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准,并将其开源在GitHub仓库中。
一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5high + 使用工具 | 90 | 2025-08-07 | 未知 |
| 2 | GPT-5.1high + 使用工具 | 90 | 2025-11-12 | 未知 |
| 3 | GPT-5.2 Prothinking + 使用工具 | 77.9 | 2025-12-11 | 未知 |
| 4 | Kimi K2 Thinkingthinking + 使用工具 | 60.2 | 2025-11-06 | 10400 |
| 5 | GPT-5thinking + 使用工具 | 54.9 | 2025-08-07 | 未知 |
| 6 | GLM-4.7thinking + 使用工具 | 52 | 2025-12-22 | 3580 |
| 7 | DeepSeek V3.2thinking | 51.4 | 2025-12-01 | 6710 |
| 8 | M2.1thinking + 使用工具 | 47.4 | 2025-12-23 | 2300 |
| 9 | GLM-4.6thinking + 使用工具 | 45.1 | 2025-09-30 | 3550 |
| 10 | MiniMax M2thinking + 使用工具 | 44 | 2025-10-27 | 2300 |
| 11 | GLM-4.7-Flashthinking + 使用工具 | 42.8 | 2026-01-19 | 310 |
| 12 | DeepSeek V3.2-Expthinking + 使用工具 | 40.1 | 2025-09-29 | 6710 |
| 13 | GPT OSS 20Bthinking + 使用工具 | 28.3 | 2025-08-06 | 210 |
| 14 | Gemini 3.0 Pro (Preview 11-2025)thinking + 使用工具 | 24.6 | 2025-11-18 | 未知 |
| 15 | Claude Sonnet 4.5thinking + 使用工具 | 24.1 | 2025-09-30 | 未知 |
| 16 | Qwen3-30B-A3B-2507thinking + 使用工具 | 2.29 | 2025-07-29 | 305 |