Aider Benchmark:面向代码编辑的大模型评测基准全解析
458 阅读
Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力,Aider 提出并维护了公开基准与排行榜,用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用,用作代码编辑与指令遵循能力的对照指标。
提出者
该基准由 Aider 项目提出与长期维护,作者为 Paul Gauthier;官方“LLM Leaderboards”页面标注最近一次更新时间为 2025-08-13。
方案设计
任务与数据
- 核心基准为 “Aider polyglot benchmark”,从 Exercism 选取 6 门语言(C++、Go、Java、JavaScript、Python、Rust)的 225 道挑战题,要求模型在已有代码基础上完成指定改动与实现。
