GDPval-AA：大模型在真实世界任务中的“经济价值”评测基准

2025年以来，大语言模型（LLM）的评测方式正在发生深刻变革。传统的学术基准（如MMLU、HumanEval）虽能衡量模型的知识储备和推理能力，但越来越难以反映模型在实际工作场景中的表现。OpenAI在2025年9月推出的GDPval基准，将焦点转向“具有经济价值的真实任务”，而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA，进一步引入了agentic（代理）能力评估和ELO排行榜，成为当前最受关注的“实用性”评测基准之一。

截至2026年2月，GDPval-AA排行榜上，Anthropic的Claude Opus 4.6已登顶，这也引发了业界对大模型真实生产力的新一轮讨论。本文将带你全面了解GDPval-AA的来龙去脉、设计理念、当前表现以及未来意义。

GDPval：从“考试”到“工作”的评测转向

GDPval的全称是“Gross Domestic Product Value”，灵感来源于宏观经济指标GDP。它由OpenAI推出，旨在衡量AI模型在对美国GDP贡献最大的行业中，完成知识型工作的能力。

基准覆盖了9大行业（占美国GDP超过5%的部分）和44个典型知识型职业，包括：

制造业：机械工程师、工业工程师
医疗保健：注册护士、护士从业者
金融保险：财务分析师、个人理财顾问
专业服务：软件开发者、律师
房地产、政府、零售贸易、批发贸易、信息行业等

每个职业设计了30个任务，总数据集1320个（公开金子集220个）。任务并非简单问答，而是模拟真实工作交付物：PowerPoint演示文稿、Excel表格、法律文书、护理报告、3D设计图甚至多媒体内容。任务由平均14年经验的专业人士设计，并附带参考文件和上下文。

评估方式采用盲测专家比较：同一领域的专业人士将AI产出与人类专家产出进行对比，判断AI是“更好”“相当”还是“更差”。前沿模型已能在大约一半任务中达到或接近人类专家水平，而且速度快约100倍、成本低约100倍（考虑推理费用）。

GDPval-AA：更“agentic”、更独立的第三方评估

Artificial Analysis在OpenAI公开数据集基础上，推出了GDPval-AA（AA即Artificial Analysis），主要升级点包括：

引入agentic能力：模型可以通过开源框架Stirrup使用shell命令和网页浏览，模拟真实代理工作流，而非单一提示。
ELO排行榜：采用盲测成对比较计算ELO分数，更适合多模型横向对比。
独立第三方评估：避免厂商自我评估的潜在偏差，目前已覆盖233个模型变体。

截至2026年2月最新排行榜，前五名如下（ELO分数）：

Claude Opus 4.6（Adaptive Reasoning）：1606
Claude Opus 4.6（Non-reasoning）：1579
GPT-5.2（xhigh）：1462
Claude Opus 4.5（Non-reasoning）：1416
GPT-5.2（medium）：1411

Anthropic的Claude系列尤其是最新Opus 4.6表现出色，在格式美观、布局设计等“审美”维度领先，而OpenAI的GPT系列则在专业知识准确性上更强。

为什么GDPval-AA重要？

更贴近企业需求：企业关心的是模型能否真正“干活”，而不是考多少分。GDPval-AA直接衡量模型在财务、法律、医疗、制造等高价值场景的表现。
揭示模型差异：不同榜单偏好不同能力。Claude在GDPval-AA的领先，说明其在复杂交付物（如演示文稿、表格）上的综合能力更强。
经济影响前瞻：如果模型持续进步，知识型工作的生产力将大幅提升，可能带来显著的经济增长，同时也引发对就业结构的讨论。
透明与开源：数据集部分开源，评估框架公开，有助于社区共同推进更真实的AI评测。

结语

GDPval-AA代表了大模型评测从“学术考试”向“职场实战”的重要转向。它不仅告诉我们当前最强的模型是谁，更让我们看到AI距离真正取代或大幅辅助人类知识工作的距离还有多远。

随着Claude Opus 4.6等新模型的发布，这个榜单仍在快速变化。未来，类似GDPval-AA的真实世界基准会越来越多，也将推动大模型向更实用、更可靠的方向演进。

如果你正在选择企业级大模型，不妨多关注GDPval-AA——它或许比传统的“跑分”更能说明问题。

GDPval：从“考试”到“工作”的评测转向

GDPval-AA：更“agentic”、更独立的第三方评估

为什么GDPval-AA重要？

结语

DataLearner 官方微信