清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，chatglm2表现优秀，baichuan-7b排名倒数！

所谓AI Agent就是一个以LLM为核心控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等，都是这样的系统。然而，并不是所有的AI Agent都有很好的表现，其核心还是取决于LLM的水平。尽管LLM已经在许多NLP任务上取得进步，但它们作为代理完成实际任务的能力缺乏系统的评估。清华大学KEG与数据挖掘小组（就是发布ChatGLM模型）发布了一个最新大模型AI Agent能力评测数据集，对当前大模型作为AI Agent的能力做了综合测评，结果十分有趣。

这个AgentBench是评测LLM作为Agent的能力，通过评测LLM在细分任务的得分来确定LLM作为Agent的水平，主要结论就是商业模型表现远超开源模型，更加适合作为Agent来使用，而GPT-4更是一骑绝尘，成为唯一一个超越4分的模型，其它模型连3分都没有！

模型	总评分	操作系统	数据库	知识图谱	卡牌游戏	横向思维难题	家庭环境	网络购物	网页浏览
gpt-4	4.41	36.8	33.7	52.1	50.0	17.6	78.0	58.6	22.6
claude	2.77	13.2	16.8	36.2	30.0	10.4	52.0	59.3	21.0
gpt-3.5-turbo	2.55	32.6	15.0	27.2	30.0

清华大学ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，chatglm2表现优秀，baichuan-7b排名倒数！

DataLearner WeChat

AI Agent简介

AgentBench简介

25个主流LLM作为Agent的能力评估结果和重要结论

LLM作为Agent的总结

Hot Blogs