datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

🏆 Berkeley Function Calling Leaderboard

欢迎来到Berkeley Function Calling排行榜的国内镜像站点。这个排行榜是一个全球公认的,用于评估大型语言模型(LLM)函数调用能力的权威平台。 Berkeley Function Calling排行榜的目标是全面、公正地评估各种大型语言模型在函数调用任务上的表现。它涵盖了各种形式的函数调用,包括并行和多重函数调用,以及多种编程语言,如Java,JavaScript等。 这个排行榜使用真实世界的数据进行评估,并会定期更新,以反映最新的研究成果和技术进步。此外,排行榜还包括了所有不同模型的成本和延迟,以便用户可以根据自己的需求和预算选择最适合的模型。
Function Calling(函数调用)是AI大模型一个非常重要的能力,也是构建AI Agent中必不可少的步骤。Function Calling的能力好坏通常意味着模型在解决复杂任务时候对工具的正确使用情况。是构建AI Agent系统中大模型最为重要的能力之一!
Berkeley Function Calling排行榜的测试方法主要包括以下几个步骤:
  • 问题和函数对:首先,他们创建了一组问题和函数文档对,这些对应用于评估大型语言模型的工具使用能力。这些问题涵盖了各种不同的主题和领域,包括数学计算,物理问题,编程任务等。
  • 函数调用的形式:他们考虑了各种形式的函数调用,包括并行(一个函数输入,多次调用函数输出)和多重(多个函数输入,一个函数输出),以及多种编程语言,如Java,JavaScript等。
  • 执行函数:他们甚至执行这些函数来执行模型,并评估模型在没有合适的函数可以回答用户问题时的反应。
  • 成本和延迟:排行榜现在还包括了所有不同模型的成本和延迟。
  • 评估:最后,他们使用这些数据和方法对各种大型语言模型进行评估,并将结果发布在排行榜上。
Berkeley Function Calling评估指标包括:
  • 综合准确率 - 这是一个衡量模型在所有测试用例上的准确性的指标。它是所有正确答案的数量除以所有测试用例的数量,越高越好。
  • AST摘要 - 这是一个衡量模型在处理抽象语法树(AST)任务时的表现的指标。AST是一种表示源代码结构的树状图,模型需要能够理解和操作AST来完成一些复杂的编程任务,基于模型生成的代码与标准答案之间的结构相似度,以及代码执行结果的正确性。
  • Exec摘要 - Exec Summary评估的是模型生成的代码在实际执行时的表现。这包括代码是否能够成功编译、执行过程中是否存在运行时错误、以及执行结果是否符合预期。
  • Relevance相关性得分 - Relevance指标衡量的是模型输出与给定任务或查询的相关性。在大模型评测中,这通常涉及到模型对于输入问题的理解程度以及生成的回答或代码是否恰当和相关。
  • 成本 - 由于这些模型都是通过在线接口完成的,成本主要是计算完成这些任务需要的费用,单位是美元。
  • 时延 - 指完成这些任务需要耗费的时间,单位是秒。是大模型推理速度的一个指标(本身的时间包含了云服务调用等网络时延)。

📣 当前数据版本:20240421

排名 模型名称 综合准确率 请求成本(美元) 时延(秒) AST Summary Exec Summary 相关性得分 发布者 开源情况 模型地址

1

GPT-4-0125-Preview

84.41

5.21

1.99

88.75

71.54

70.42

OpenAI Proprietary DataLearnerAI模型信息卡地址

2

Claude-3-Opus-20240229

84.12

10.8

5.05

86.09

70.9

80.42

Anthropic Proprietary DataLearnerAI暂未收录

3

GPT-4-turbo-2024-04-09

81.88

5.22

2.68

86.83

71.04

62.5

OpenAI Proprietary DataLearnerAI模型信息卡地址

4

GPT-4-1106-Preview

81.76

5.03

6.34

84.75

68.26

80.42

OpenAI Proprietary DataLearnerAI模型信息卡地址

5

Gorilla-OpenFunctions-v2

81.71

1.7

2.65

86.16

71.52

60.83

Gorilla LLM Apache 2.0 DataLearnerAI暂未收录

6

GPT-4-0125-Preview

80.29

4.82

5.03

83.75

66.13

82.92

OpenAI Proprietary DataLearnerAI模型信息卡地址

7

Mistral-Medium-2312

79.47

1.75

2.77

81.44

62.13

88.75

Mistral AI Proprietary DataLearnerAI暂未收录

8

GPT-4-turbo-2024-04-09

78.76

4.79

5.68

81.7

65.13

88.75

OpenAI Proprietary DataLearnerAI模型信息卡地址

9

Claude-3-Sonnet-20240229

77.88

2.12

2.11

85.2

70.82

50.42

Anthropic Proprietary DataLearnerAI暂未收录

10

Functionary-Medium-v2.4

77.12

1.64

2.55

82.36

62.61

74.17

MeetKai MIT DataLearnerAI暂未收录

11

Functionary-Small-v2.4

76.18

1.76

2.74

80.0

65.32

67.92

MeetKai MIT DataLearnerAI暂未收录

12

Claude-3-Opus-20240229

73.71

30.65

12.63

70.35

55.2

82.5

Anthropic Proprietary DataLearnerAI暂未收录

13

Claude-instant-1.2

73

0.95

1.35

76.63

64.08

54.17

Anthropic Proprietary DataLearnerAI暂未收录

14

Claude-3-Haiku-20240307

71.65

0.18

0.99

77.36

64.26

29.58

Anthropic Proprietary DataLearnerAI暂未收录

15

Claude-2.1

65.12

6.64

3.72

62.59

46.39

83.33

Anthropic Proprietary DataLearnerAI暂未收录

16

Mistral-large-2402

65

4.94

2.84

62.09

47.35

84.17

Mistral AI Proprietary DataLearnerAI模型信息卡地址

17

DBRX-Instruct-Preview

64.59

1.25

0.63

65.31

64.1

56.25

Databricks Databricks Open Model DataLearnerAI暂未收录

18

Mistral-large-2402

61.71

3.9

1.86

68.98

52.46

/

Mistral AI Proprietary DataLearnerAI模型信息卡地址

19

GPT-3.5-Turbo-0125

58.94

0.42

1.26

70.52

67.8

2.08

OpenAI Proprietary DataLearnerAI暂未收录

20

Mistral-small-2402

58.71

0.96

1.05

64.27

48.41

/

Mistral AI Proprietary DataLearnerAI暂未收录

21

Hermes-2-Pro-Mistral-7B

58.41

0.15

0.39

67.99

54.26

10.83

NousResearch apache-2.0 DataLearnerAI暂未收录

22

Claude-3-Sonnet-20240229

58.06

3.41

3.35

44.06

38.66

81.67

Anthropic Proprietary DataLearnerAI暂未收录

23

Gemini-1.0-Pro

56.94

0.19

1.06

41.94

39.9

77.5

Google Proprietary DataLearnerAI暂未收录

24

Claude-3-Haiku-20240307

52.59

0.29

1.52

44.69

42.72

20.83

Anthropic Proprietary DataLearnerAI暂未收录

25

FireFunction-v1

51.53

-1.0

1.24

39.94

34.28

73.33

Fireworks Apache 2.0 DataLearnerAI暂未收录

26

Nexusflow-Raven-v2

50.94

-1.0

1.86

55.05

56.93

2.08

Nexusflow Apache 2.0 DataLearnerAI暂未收录

27

GPT-4-0613

49.71

10.48

3.54

38.53

26.04

91.67

OpenAI Proprietary DataLearnerAI模型信息卡地址

28

Mistral-tiny-2312

48.71

0.13

1.79

46.91

28.71

82.08

Mistral AI Proprietary DataLearnerAI暂未收录

29

Gemma-7b-it

41.47

0.03

0.09

39.05

33.15

60.42

Google gemma-terms-of-use DataLearnerAI模型信息卡地址

30

Deepseek-v1.5

39.41

0.45

1.2

36.98

29.26

56.67

Deepseek Deepseek License DataLearnerAI暂未收录

31

Mistral-Small-2402

38.18

0.7

1.09

37.66

29.25

98.33

Mistral AI Proprietary DataLearnerAI暂未收录

32

Mistral-small-2402

17.65

2.02

2.93

2.53

7.26

99.58

Mistral AI Proprietary DataLearnerAI暂未收录

数据说明:所有数据来源于Berkeley官方网站!https://gorilla.cs.berkeley.edu/leaderboard.html