Aider Benchmark:面向代码编辑的大模型评测基准全解析
362 阅读
加载中...
Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力,Aider 提出并维护了公开基准与排行榜,用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用,用作代码编辑与指令遵循能力的对照指标。
该基准由 Aider 项目提出与长期维护,作者为 Paul Gauthier;官方“LLM Leaderboards”页面标注最近一次更新时间为 2025-08-13。
任务与数据
交互与编辑格式
whole(整文件替换)、diff、diff-fenced、udiff,以及在“architect 模式”下用于二段式管线的 editor-diff/editor-whole。不同模型在不同格式下的稳定性与效率存在差异。计分与统计项
主要指标:
榜单同时记录成本(按当时价格估算)与若干运行统计(如“malformed responses”次数)。
以 Aider 官方“Polyglot Coding Leaderboard”最近更新(2025-08-13)为准,列出若干代表性条目(Percent correct、估算成本、主要编辑格式):
此外,榜单还展示了若干中小模型或不同设置下的结果,分数存在显著差异,例如 gemma-3-27b-it(4.9%)、gpt-4o-mini-2024-07-18(3.6%)。
Aider benchmark 面向“代码编辑落地”的评测场景,强调“正确完成率 + 编辑格式合规率”。与以仓库级修复为目标的 SWE-bench 等评测互补,可用于比较不同大模型在实际工程改动中的稳定性和成本画像。