DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog List/
  3. Blog Detail

DataLearnerAI-GPT:可以回答关于大模型评测结果的GPT

2023/11/12 11:25:50
1,369 views
DataLearnerAI-GPTOpenLLMLeaderboard大模型评测

最近自定义GPTs非常火热,出现了大量的自定义GPT,可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT,目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息,包括DataLearner网站上所有的大模型博客和技术介绍。

DataLearnerAI-GPT:可以回答大模型相技术和评测结果的GPT
DataLearnerAI-GPT:可以回答大模型相技术和评测结果的GPT

DataLearnerAI-GPT体验地址:https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt

  • DataLearnerAI-GPT简介
  • DataLearnerAI-GPT的测试样例
  • OpenLLMLeaderboard的DataLearner访问站

DataLearnerAI-GPT简介

大模型的发展非常快,但是各家宣称自己的模型都很好,超过GPT-3.5的宣传也很多,为了更加方便大家对比和追踪评测结果,HuggingFaceH4推出了OpenLLMLeadboard,收集了全球各种大模型在不同评测任务上的评分结果。

目前OpenLLMLeaderboard收集了如下的评测结果:

  • AI2 Reasoning Challenge (25-shot):一套小学科学问题。
  • HellaSwag (10-shot): 对于人类而言简单(大约95%)的常识推理测试,但对于最新技术模型而言具有挑战性。
  • MMLU (5-shot): 测试文本模型的多任务准确性,涵盖57项任务,包括小学数学、美国历史、计算机科学、法律等。
  • TruthfulQA (0-shot):测试模型复制网络上常见虚假信息的倾向。注意:工具中的 TruthfulQA 实际上至少是6次尝试的任务。
  • Winogrande (5-shot):大规模的、具有对抗性的、困难的 Winograd 基准测试,用于常识推理。
  • GSM8k (5-shot):多样化的小学数学文字问题,用于测试模型解决多步骤数学推理问题的能力。
  • DROP (3-shot):要求对段落内容进行离散推理的英语阅读理解基准测试。

可以看到,这些评测涵盖了语言理解、数学推理等多方面的能力。但是,这些都是表格数据,为了更加方便大家查询各大模型的评测结果,或者根据指定需求筛选模型结果,我们基于OpenAI最新的自定义GPT功能建立了DataLearnerAI-GPT,目前已经支持回答基于OpenLLMLeaderboard数据回答大家关于大模型评测的问题了。

DataLearnerAI-GPT的测试样例

我们也测试了几个问题,可以方便大家看如何使用。

第一个问题,目前理解能力最强的预训练模型是哪个?(what is the most comprehensibility pretrained LLM?)

结果如下:

DataLearnerAI-GPT回答样例
DataLearnerAI-GPT回答样例

它可以准确基于评测得分知道理解能力最强的是零一万物开源的Yi-34B模型,可以继续追问要求给出HF的链接。

也可以提问70亿参数规模左右推理能力比较强的模型:

DataLearnerAI-GPT关于7B规模推理能力较强的模型
DataLearnerAI-GPT关于7B规模推理能力较强的模型

这里只是示例,你也可以考虑使用中文问答。DataLearnerAI-GPT的链接: https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt 欢迎大家使用。

OpenLLMLeaderboard的DataLearner访问站

另外,由于HF访问的不稳定,OpenLLMLeaderboard参考价值虽然很大,对于国内用户不够友好,为此,DataLearner也备份了相关数据:https://www.datalearner.com/ai-models/open-llm-leaderboard

截图如下:

OpenLLMLeaderboard中国站
OpenLLMLeaderboard中国站

目前是按照平均分倒排,未来会增加更多筛选内容。欢迎大家交流~

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

  • PinchBench:OpenClaw AI 代理真实任务基准测试介绍
  • AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
  • AA-LCR:大模型长上下文推理能力的权威评测基准(Artificial Analysis Long Context Reasoning)是什么?包含哪些任务?如何测试大模型超长上下文能力?
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署