如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力?Terminal Bench评测简介 | DataLearnerAI