BrowseComp 评测基准详情

83

BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题，这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准，并将其开源在GitHub仓库中。

BrowseComp

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

问题数量 1266

发布机构 OpenAI

评测类别 AI Agent - 信息收集

评测指标 Accuracy

支持语言英文

难度等级中等难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

BrowseComp 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

1

GPT-5.1 Thinking high + 使用工具

90.0

2025-11-12

未知

#1

GPT-5.1 Thinking high + 使用工具

90.0

BrowseComp得分 90.0

发布时间 2025-11-12

参数(亿) 未知

查看模型详情

2

GPT-5 high + 使用工具

90.0

2025-08-07

未知

#2

GPT-5 high + 使用工具

90.0

BrowseComp得分 90.0

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

3

Kimi K2 Thinking thinking + 使用工具

60.2

2025-11-06

10400.0

#3

Kimi K2 Thinking thinking + 使用工具

60.2

BrowseComp得分 60.2

发布时间 2025-11-06

参数(亿) 10400.0

查看模型详情

4

GPT-5 thinking + 使用工具

54.9

2025-08-07

未知

#4

GPT-5 thinking + 使用工具

54.9

BrowseComp得分 54.9

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

5

GLM-4.6 thinking + 使用工具

45.1

2025-09-30

3550.0

#5

GLM-4.6 thinking + 使用工具

45.1

BrowseComp得分 45.1

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

6

MiniMax M2 thinking + 使用工具

44.0

2025-10-27

2300.0

#6

MiniMax M2 thinking + 使用工具

44.0

BrowseComp得分 44.0

发布时间 2025-10-27

参数(亿) 2300.0

查看模型详情

7

DeepSeek V3.2-Exp thinking + 使用工具

40.1

2025-09-29

6710.0

#7

DeepSeek V3.2-Exp thinking + 使用工具

40.1

BrowseComp得分 40.1

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

8

Claude Sonnet 4.5 thinking + 使用工具

24.1

2025-09-30

未知

#8

Claude Sonnet 4.5 thinking + 使用工具

24.1

BrowseComp得分 24.1

发布时间 2025-09-30

参数(亿) 未知

查看模型详情