Aider-Polyglot

Name: Aider-Polyglot Benchmark
Creator: 个人

Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力，Aider 提出并维护了公开基准与排行榜，用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用，用作代码编辑与指令遵循能力的对照指标。

更新于 2026年6月23日·2,296 次浏览

问题数量: 225
发布机构: 个人
评测类别: Agent能力评测
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

一个用于评估大模型在“按照指令对代码进行实际可落地的编辑”上的能力的评测基准

Aider-Polyglot评测最新大模型排名与完整榜单数据

查看 Aider-Polyglot 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5 思考水平·高	88.00	2025-08-07	未知	闭源
	GPT-5 思考水平·中	86.70	2025-08-07	未知	闭源
	o3-pro 思考水平·高	84.90	2025-06-10	未知	闭源
4	Gemini 2.5-Pro 32K	83.10	2025-06-05	未知	闭源
5	OpenAI o3 思考水平·高	81.30	2025-04-16	未知	闭源
6	GPT-5 思考水平·低	81.30	2025-08-07	未知	闭源
7	Grok 4 思考水平·高	79.60	2025-07-10	未知	闭源
8	Gemini 2.5-Pro 开启思考	79.10	2025-06-05	未知	闭源
9	OpenAI o3 常规模式	76.90	2025-04-16	未知	闭源
10	Gemini-2.5-Pro-Preview-05-06 常规模式	76.90	2025-05-06	未知	闭源
11	DeepSeek V3.2-Exp 开启思考	74.20	2025-09-29	6710亿	免费商用
12	Gemini 2.5 Pro Experimental 03-25 常规模式	72.90	2025-03-25	未知	闭源
13	OpenAI o4 - mini 思考水平·高	72.00	2025-04-16	未知	闭源
14	Claude Opus 4 32K	72.00	2025-05-23	未知	闭源
15	DeepSeek-R1-0528 开启思考	71.40	2025-05-28	6710亿	免费商用
16	Claude Opus 4 常规模式	70.70	2025-05-23	未知	闭源
17	DeepSeek V3.2-Exp 常规模式	70.20	2025-09-29	6710亿	免费商用
18	Claude Sonnet 3.7 32K	64.90	2025-02-25	未知	闭源
19	OpenAI o1 思考水平·高	61.70	2024-12-05	未知	闭源
20	Claude Sonnet 4 32K	61.30	2025-05-23	未知	闭源
21	Claude Sonnet 3.7 常规模式	60.40	2025-02-25	未知	闭源
22	OpenAI o3-mini 思考水平·高	60.40	2025-01-31	未知	闭源
23	Qwen3-235B-A22B 常规模式	59.60	2025-04-28	2350亿	免费商用
24	Kimi K2 常规模式	59.10	2025-07-11	10000亿	免费商用
25	DeepSeek-R1 开启思考	56.90	2025-01-20	6710亿	免费商用
26	Claude Sonnet 4 常规模式	56.40	2025-05-23	未知	闭源
27	DeepSeek-V3-0324 常规模式	55.10	2025-03-24	6710亿	免费商用
28	Gemini 2.5 Flash 16K	55.10	2025-04-17	未知	闭源
29	OpenAI o3-mini 思考水平·中	53.80	2025-01-31	未知	闭源
30	Grok 3 常规模式	53.30	2025-02-17	未知	闭源

继续滚动可加载剩余 29 条

Aider-Polyglot评测最新大模型排名与完整榜单数据

Aider-Polyglot 排名