GDPval-AA:大模型在真实世界任务中的“经济价值”评测基准
2025年以来,大语言模型(LLM)的评测方式正在发生深刻变革。传统的学术基准(如MMLU、HumanEval)虽能衡量模型的知识储备和推理能力,但越来越难以反映模型在实际工作场景中的表现。OpenAI在2025年9月推出的GDPval基准,将焦点转向“具有经济价值的真实任务”,而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA,进一步引入了agentic(代理)能力评估和ELO排行榜,成为当前最受关注的“实用性”评测基准之一。
截至2026年2月,GDPval-AA排行榜上,Anthropic的Claude Opus 4.6已登顶,这也引发了业界对大模型真实生产力的新一轮讨论。本文将带你全面了解GDPval-AA的来龙去脉、设计理念、当前表现以及未来意义。
GDPval:从“考试”到“工作”的评测转向
GDPval的全称是“Gross Domestic Product Value”,灵感来源于宏观经济指标GDP。它由OpenAI推出,旨在衡量AI模型在对美国GDP贡献最大的行业中,完成知识型工作的能力。
基准覆盖了(占美国GDP超过5%的部分)和,包括:
