BrowseComp

Name: BrowseComp
Creator: OpenAI

BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题，这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准，并将其开源在GitHub仓库中。

更新于 2026年7月17日·3,430 次浏览

问题数量: 1266
发布机构: OpenAI
评测类别: AI Agent - 信息收集
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

BrowseComp评测最新大模型排名与完整榜单数据

查看 BrowseComp 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Kimi K3 思考水平·Max工具联网	91.20	2026-07-16	28000亿	免费商用
	GPT-5.5 Pro 思考水平·极高工具联网	90.10	2026-04-23	未知	闭源
	GPT-5.4 Pro 思考水平·高工具	89.30	2026-03-05	未知	闭源
4	Gemini 3.1 Pro Preview 思考水平·高工具联网	85.90	2026-02-20	未知	闭源
5	Claude Mythos Preview 扩展思考工具	84.90	2026-04-07	未知	闭源
6	Claude Sonnet 5 开启思考工具联网	84.70	2026-06-30	未知	闭源
7	GPT-5.5 思考水平·高工具联网	84.40	2026-04-23	未知	闭源
8	Claude Opus 4.8 思考水平·高工具联网	84.30	2026-05-28	未知	闭源
9	Hy3 思考水平·高工具联网	84.20	2026-07-06	2950亿	免费商用
10	Claude Opus 4.6 开启思考工具联网	84.00	2026-02-05	未知	闭源
11	MiniMax M3 开启思考工具联网	83.50	2026-06-01	4280亿	非商用
12	DeepSeek-V4-Pro 思考水平·极高工具	83.40	2026-04-24	16000亿	免费商用
13	Kimi K2.6 开启思考工具联网	83.20	2026-04-20	10000亿	免费商用
14	GPT-5.4 思考水平·极高工具	82.70	2026-03-05	未知	闭源
15	DeepSeek-V4-Pro 思考水平·高工具	80.40	2026-04-24	16000亿	免费商用
16	GLM 5.1 开启思考工具联网	79.30	2026-03-27	754亿	免费商用
17	Opus 4.7 扩展思考工具	79.30	2026-04-16	未知	闭源
18	Qwen3.5-397B-A17B 开启思考工具联网	78.60	2026-02-16	397亿	免费商用
19	GPT-5.2 Pro 开启思考工具	77.90	2025-12-11	未知	闭源
20	GPT-5.2 Pro 思考水平·极高工具	77.90	2025-12-11	未知	闭源
21	Inkling 开启思考工具联网	77.10	2026-07-15	9750亿	免费商用
22	MiniMax M2.5 开启思考工具	76.30	2026-02-12	2290亿	免费商用
23	GLM-5 开启思考工具	75.90	2026-02-11	7440亿	免费商用
24	Step 3.7 Flash 开启思考工具	75.82	2026-05-29	1980亿	免费商用
25	GPT-Live-1 思考水平·高工具联网	75.20	2026-07-08	未知	闭源
26	Claude Sonnet 4.6 开启思考工具	74.70	2026-02-17	未知	闭源
27	DeepSeek-V4-Flash 思考水平·极高工具	73.20	2026-04-24	2840亿	免费商用
28	Step 3.5 Flash 开启思考工具	69.00	2026-02-02	1960亿	免费商用
29	Qwen3.5-397B-A17B 开启思考工具	69.00	2026-02-16	397亿	免费商用
30	GPT-5.2 思考水平·极高工具联网	65.80	2025-12-11	未知	闭源

继续滚动可加载剩余 22 条

BrowseComp评测最新大模型排名与完整榜单数据

BrowseComp 排名