Terminal-Bench 大模型得分排行榜
数据来源:DataLearnerAI
Terminal-Bench详细排名数据表格
排名
模型
得分
发布时间
参数(亿)
Terminal-Bench是一个新兴的开源基准测试,专为评估人工智能Agent(AI Agent)在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务,旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。
数据来源:DataLearnerAI