Aider Benchmark：面向代码编辑的大模型评测基准全解析

Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力，Aider 提出并维护了公开基准与排行榜，用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用，用作代码编辑与指令遵循能力的对照指标。

提出者

该基准由 Aider 项目提出与长期维护，作者为 Paul Gauthier；官方“LLM Leaderboards”页面标注最近一次更新时间为 2025-08-13。

任务与数据

核心基准为 “Aider polyglot benchmark”，从 Exercism 选取 6 门语言（C++、Go、Java、JavaScript、Python、Rust）的 225 道挑战题，要求模型在已有代码基础上完成指定改动与实现。

模型（配置）	Percent correct	估算成本	主要编辑格式
o3-pro（high）	84.9%	$146.32	diff
Gemini 2.5 Pro Preview 06-05（32k think）	83.1%	$49.88	diff-fenced
o3（high）	81.3%	$21.23	diff
Grok-4（high）	79.6%	$59.62	diff
Gemini 2.5 Pro Preview 06-05（默认 think）	79.1%	$45.60	diff-fenced