BrowseComp
BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题,这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准,并将其开源在GitHub仓库中。
更新于 2026-04-21
2,422 次浏览
问题数量
1266
发布机构
OpenAI
评测类别
AI Agent - 信息收集
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准
相关资源
BrowseComp 大模型得分排行榜
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
BrowseComp评测最新大模型排名与完整榜单数据
查看 BrowseComp 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
模型发布时间截止:
BrowseComp详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | GPT-5.4 Pro 思考水平 · 高工具 | 89.30 | 2026-03-05 | 未知 |
| 2 | Gemini 3.1 Pro Preview 思考水平 · 高工具联网 | 85.90 | 2026-02-20 | 未知 |
| 3 | Claude Mythos Preview 扩展思考工具 | 84.90 | 2026-04-07 | 未知 |
| 4 | Claude Opus 4.6 开启思考工具联网 | 84.00 | 2026-02-05 | 未知 |
| 5 | Kimi K2.6 开启思考工具联网 | 83.20 | 2026-04-20 | 10000 |
| 6 | GPT-5.4 思考水平 · 极高工具 | 82.70 | 2026-03-05 | 未知 |
| 7 | GLM 5.1 开启思考工具联网 | 79.30 | 2026-03-27 | 754 |
| 8 | Opus 4.7 扩展思考工具 | 79.30 | 2026-04-16 | 未知 |
| 9 | Qwen3.5-397B-A17B 开启思考工具联网 | 78.60 | 2026-02-16 | 397 |
| 10 | GPT-5.2 Pro 开启思考工具 | 77.90 | 2025-12-11 | 未知 |
| 11 | GPT-5.2 Pro 思考水平 · 极高工具 | 77.90 | 2025-12-11 | 未知 |
| 12 | MiniMax M2.5 开启思考工具 | 76.30 | 2026-02-12 | 2290 |
| 13 | GLM-5 开启思考工具 | 75.90 | 2026-02-11 | 7440 |
| 14 | Claude Sonnet 4.6 开启思考工具 | 74.70 | 2026-02-17 | 未知 |
| 15 | Step 3.5 Flash 开启思考工具 | 69.00 | 2026-02-02 | 1960 |
| 16 | Qwen3.5-397B-A17B 开启思考工具 | 69.00 | 2026-02-16 | 397 |
| 17 | GPT-5.2 深度思考模式工具联网 | 65.80 | 2025-12-11 | 未知 |
| 18 | GPT-5.2 思考水平 · 极高工具 | 65.80 | 2025-12-11 | 未知 |
| 19 | GLM-5 开启思考 | 62.00 | 2026-02-11 | 7440 |
| 20 | Qwen3.5-27B 开启思考工具联网 | 61.00 | 2026-02-25 | 270 |
| 21 | Qwen3.5-27B 开启思考工具 | 61.00 | 2026-02-25 | 270 |
| 22 | Kimi K2.5 开启思考工具联网 | 60.60 | 2026-01-27 | 10000 |
| 23 | Kimi K2 Thinking 开启思考工具 | 60.20 | 2025-11-06 | 10400 |
| 24 | Gemini 3.0 Pro (Preview 11-2025) 思考水平 · 高工具 | 59.20 | 2025-11-18 | 未知 |
| 25 | GPT-5 开启思考工具 | 54.90 | 2025-08-07 | 未知 |
| 26 | GLM-4.7 开启思考工具 | 52.00 | 2025-12-22 | 3580 |
| 27 | DeepSeek V3.2 开启思考 | 51.40 | 2025-12-01 | 6710 |
| 28 | GPT-5.1 思考水平 · 高 | 50.80 | 2025-11-12 | 未知 |
| 29 | M2.1 开启思考工具 | 47.40 | 2025-12-23 | 2300 |
| 30 | GLM-4.6 开启思考工具 | 45.10 | 2025-09-30 | 3550 |
滚动或悬停加载剩余 7 条