DataLearnerAI-GPT:可以回答关于大模型评测结果的GPT

标签:#DataLearnerAI-GPT##OpenLLMLeaderboard##大模型评测# 时间:2023/11/12 11:25:50 作者:小木

最近自定义GPTs非常火热,出现了大量的自定义GPT,可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT,目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息,包括DataLearner网站上所有的大模型博客和技术介绍。

DataLearnerAI-GPT:可以回答大模型相技术和评测结果的GPT

DataLearnerAI-GPT体验地址:https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt

[TOC]

DataLearnerAI-GPT简介

大模型的发展非常快,但是各家宣称自己的模型都很好,超过GPT-3.5的宣传也很多,为了更加方便大家对比和追踪评测结果,HuggingFaceH4推出了OpenLLMLeadboard,收集了全球各种大模型在不同评测任务上的评分结果。

目前OpenLLMLeaderboard收集了如下的评测结果:

  • AI2 Reasoning Challenge (25-shot):一套小学科学问题。
  • HellaSwag (10-shot): 对于人类而言简单(大约95%)的常识推理测试,但对于最新技术模型而言具有挑战性。
  • MMLU (5-shot): 测试文本模型的多任务准确性,涵盖57项任务,包括小学数学、美国历史、计算机科学、法律等。
  • TruthfulQA (0-shot):测试模型复制网络上常见虚假信息的倾向。注意:工具中的 TruthfulQA 实际上至少是6次尝试的任务。
  • Winogrande (5-shot):大规模的、具有对抗性的、困难的 Winograd 基准测试,用于常识推理。
  • GSM8k (5-shot):多样化的小学数学文字问题,用于测试模型解决多步骤数学推理问题的能力。
  • DROP (3-shot):要求对段落内容进行离散推理的英语阅读理解基准测试。

可以看到,这些评测涵盖了语言理解、数学推理等多方面的能力。但是,这些都是表格数据,为了更加方便大家查询各大模型的评测结果,或者根据指定需求筛选模型结果,我们基于OpenAI最新的自定义GPT功能建立了DataLearnerAI-GPT,目前已经支持回答基于OpenLLMLeaderboard数据回答大家关于大模型评测的问题了。

DataLearnerAI-GPT的测试样例

我们也测试了几个问题,可以方便大家看如何使用。

第一个问题,目前理解能力最强的预训练模型是哪个?(what is the most comprehensibility pretrained LLM?)

结果如下:

DataLearnerAI-GPT回答样例

它可以准确基于评测得分知道理解能力最强的是零一万物开源的Yi-34B模型,可以继续追问要求给出HF的链接。

也可以提问70亿参数规模左右推理能力比较强的模型:

DataLearnerAI-GPT关于7B规模推理能力较强的模型

这里只是示例,你也可以考虑使用中文问答。DataLearnerAI-GPT的链接: https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt 欢迎大家使用。

OpenLLMLeaderboard的DataLearner访问站

另外,由于HF访问的不稳定,OpenLLMLeaderboard参考价值虽然很大,对于国内用户不够友好,为此,DataLearner也备份了相关数据:https://www.datalearner.com/ai-models/open-llm-leaderboard

截图如下:

OpenLLMLeaderboard中国站

目前是按照平均分倒排,未来会增加更多筛选内容。欢迎大家交流~

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送