Aider Benchmark:面向代码编辑的大模型评测基准全解析

标签:#命令行助手##大模型编程能力##大模型评测##大模型评测基准# 时间:2025/08/20 03:50:12 作者:小木

Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力,Aider 提出并维护了公开基准与排行榜,用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用,用作代码编辑与指令遵循能力的对照指标。

提出者

该基准由 Aider 项目提出与长期维护,作者为 Paul Gauthier;官方“LLM Leaderboards”页面标注最近一次更新时间为 2025-08-13。

方案设计

任务与数据

  • 核心基准为 “Aider polyglot benchmark”,从 Exercism 选取 6 门语言(C++、Go、Java、JavaScript、Python、Rust)的 225 道挑战题,要求模型在已有代码基础上完成指定改动与实现。

交互与编辑格式

  • 评测关注模型是否能按指定“编辑格式”返回可直接应用的补丁或完整文件,包括:whole(整文件替换)、diffdiff-fencedudiff,以及在“architect 模式”下用于二段式管线的 editor-diff/editor-whole。不同模型在不同格式下的稳定性与效率存在差异。

计分与统计项

  • 主要指标:

    1. Percent completed correctly:成功完成任务的比例(通过单元测试等验证);
    2. Percent using correct edit format:在不违反指定编辑格式前提下完成任务的比例。
  • 榜单同时记录成本(按当时价格估算)与若干运行统计(如“malformed responses”次数)。

特点

  • 聚焦“能否把改动落到文件上”:不仅评代码正确性,也评“编辑格式合规率”,以反映模型在工程环境中对变更的可执行性。
  • 多语言、多题型:覆盖 6 门语言、225 题,较早期仅 Python 的版本更具代表性;旧版“Code editing leaderboard(Python 133 题)”已被更具挑战的多语言版本取代。
  • 可复现与公开:题目来源与评测脚本对外开放,便于复现与提交结果。
  • 被厂商侧引用:例如 OpenAI 在 GPT-4.1 公告中专门引用该基准的“polyglot diff”结果,用于展示代码编辑稳定性。

主流评测结果(截取官方榜单代表项)

以 Aider 官方“Polyglot Coding Leaderboard”最近更新(2025-08-13)为准,列出若干代表性条目(Percent correct估算成本主要编辑格式):

模型(配置) Percent correct 估算成本 主要编辑格式
o3-pro(high) 84.9% \$146.32 diff
Gemini 2.5 Pro Preview 06-05(32k think) 83.1% \$49.88 diff-fenced
o3(high) 81.3% \$21.23 diff
Grok-4(high) 79.6% \$59.62 diff
Gemini 2.5 Pro Preview 06-05(默认 think) 79.1% \$45.60 diff-fenced

此外,榜单还展示了若干中小模型或不同设置下的结果,分数存在显著差异,例如 gemma-3-27b-it(4.9%)、gpt-4o-mini-2024-07-18(3.6%)。

结语

Aider benchmark 面向“代码编辑落地”的评测场景,强调“正确完成率 + 编辑格式合规率”。与以仓库级修复为目标的 SWE-bench 等评测互补,可用于比较不同大模型在实际工程改动中的稳定性和成本画像。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送