Aider Benchmark:面向代码编辑的大模型评测基准全解析
Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力,Aider 提出并维护了公开基准与排行榜,用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用,用作代码编辑与指令遵循能力的对照指标。
提出者
该基准由 Aider 项目提出与长期维护,作者为 Paul Gauthier;官方“LLM Leaderboards”页面标注最近一次更新时间为 2025-08-13。
方案设计
任务与数据
- 核心基准为 “Aider polyglot benchmark”,从 Exercism 选取 6 门语言(C++、Go、Java、JavaScript、Python、Rust)的 225 道挑战题,要求模型在已有代码基础上完成指定改动与实现。
交互与编辑格式
- 评测关注模型是否能按指定“编辑格式”返回可直接应用的补丁或完整文件,包括:
whole
(整文件替换)、diff
、diff-fenced
、udiff
,以及在“architect 模式”下用于二段式管线的editor-diff
/editor-whole
。不同模型在不同格式下的稳定性与效率存在差异。
计分与统计项
主要指标:
- Percent completed correctly:成功完成任务的比例(通过单元测试等验证);
- Percent using correct edit format:在不违反指定编辑格式前提下完成任务的比例。
- 榜单同时记录成本(按当时价格估算)与若干运行统计(如“malformed responses”次数)。
特点
- 聚焦“能否把改动落到文件上”:不仅评代码正确性,也评“编辑格式合规率”,以反映模型在工程环境中对变更的可执行性。
- 多语言、多题型:覆盖 6 门语言、225 题,较早期仅 Python 的版本更具代表性;旧版“Code editing leaderboard(Python 133 题)”已被更具挑战的多语言版本取代。
- 可复现与公开:题目来源与评测脚本对外开放,便于复现与提交结果。
- 被厂商侧引用:例如 OpenAI 在 GPT-4.1 公告中专门引用该基准的“polyglot diff”结果,用于展示代码编辑稳定性。
主流评测结果(截取官方榜单代表项)
以 Aider 官方“Polyglot Coding Leaderboard”最近更新(2025-08-13)为准,列出若干代表性条目(Percent correct、估算成本、主要编辑格式):
模型(配置) | Percent correct | 估算成本 | 主要编辑格式 |
---|---|---|---|
o3-pro(high) | 84.9% | \$146.32 | diff |
Gemini 2.5 Pro Preview 06-05(32k think) | 83.1% | \$49.88 | diff-fenced |
o3(high) | 81.3% | \$21.23 | diff |
Grok-4(high) | 79.6% | \$59.62 | diff |
Gemini 2.5 Pro Preview 06-05(默认 think) | 79.1% | \$45.60 | diff-fenced |
此外,榜单还展示了若干中小模型或不同设置下的结果,分数存在显著差异,例如 gemma-3-27b-it(4.9%)、gpt-4o-mini-2024-07-18(3.6%)。
结语
Aider benchmark 面向“代码编辑落地”的评测场景,强调“正确完成率 + 编辑格式合规率”。与以仓库级修复为目标的 SWE-bench 等评测互补,可用于比较不同大模型在实际工程改动中的稳定性和成本画像。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
