大模型评测排行

大模型评测基准

AI大模型大全

搜索博客

加载中...

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

首页/
博客/
标签：模型/
第8页

标签

「模型」相关文章（第8页）

汇总「模型」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#模型

GPT-4在11月份以来变懒的原因可能已经找到：大模型可能会在节假日期间变得不愿意干活，工作日期间却更加高效

GPT-4在11月份以来变懒的原因可能已经找到：大模型可能会在节假日期间变得不愿意干活，工作日期间却更加高效

最近一段时间，很多人普遍反映GPT-4变得懒散和愚笨，很多此前可以回答的问题在最近一段时间都无法回答，或者回答比较简单。为此，OpenAI官方也在前几天发布信息说的确收到了这样的信息，但是模型并没有在最近一个多月更新过，所以他们也在好奇是什么原因。而今天的一些测试表明，GPT-4模型会像人一样在不同的时间段有不同的效率。

2023/12/12 13:38:462,497

#ChatGPT #GPT-4

MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍，效果超过LLaMA2-70B和GPT-3.5，推理速度快6倍

MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍，效果超过LLaMA2-70B和GPT-3.5，推理速度快6倍

12月8日晚上，MistralAI在他们的推特账号上发布了一个磁力链接，大家下载之后根据名字推断这是一个混合专家模型（Mixture of Experts，MoE）。这种模型因为较低的成本和更高的性能被认为是大模型技术中非常重要的路径。也是GPT-4可能的方案。MistralAI在今天发布了博客，正式介绍了这个强大的模型。

2023/12/11 23:24:121,557

#Mistral-7B×8-MoE #MistralAI

Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine：图像细节丰富、色彩鲜明、想象力很棒，而且免费使用！

Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine：图像细节丰富、色彩鲜明、想象力很棒，而且免费使用！

在2023年的9月26日，MetaAI发布了一个Emu大模型，这是一个文本生成图像大模型，基于28亿参数的U-Net进行预训练得到，然后使用几千张高质量图像进行质量微调（Quality-Tuning）来提高模型的效果。不过，Emu模型并没有开源。但是，上周，Meta官方发布了一个全新的独立的文本生成图像系统Imagine，可以免费创作图像，质量很高。

2023/12/10 22:37:24732

#Emu #Emu大模型

重磅！苹果官方发布大模型框架：一个可以充分利用苹果统一内存的新的大模型框架MLX，你的MacBook可以一键运行LLaMA了

重磅！苹果官方发布大模型框架：一个可以充分利用苹果统一内存的新的大模型框架MLX，你的MacBook可以一键运行LLaMA了

苹果刚刚发布了一个全新的机器学习矿机MLX，这是一个类似NumPy数组的框架，目的是可以在苹果的芯片上更加高效地运行各种机器学习模型，当然最主要的目的是大模型。

2023/12/06 22:05:252,604

#MLX #统一内存架构

Pika和HeyGen的开源替代品：上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型

Pika和HeyGen的开源替代品：上海人工智能实验室开源可以生成高质量最长61秒视频的LaVie文本生成视频大模型

最近，初创企业Pika引起了全球的目光。这家公司发布的Pika 1.0产品可以基于生成式AI技术来创建3D动画视频或者电影级别的视频。由于其逼真的效果，引起了很多人的关注。本文则介绍一个由上海人工智能实验室开源的文本生成视频大模型LaVie。这个模型可以根据文本生成高质量的视频内容。

2023/12/05 21:49:091,200

#LaVie #文本生成视频

阿里巴巴开源国内最大参数规模大语言模型——高达720亿参数规模的Qwen-72B发布！还有一个可以在手机上运行的18亿参数的Qwen-1.8B

阿里巴巴开源国内最大参数规模大语言模型——高达720亿参数规模的Qwen-72B发布！还有一个可以在手机上运行的18亿参数的Qwen-1.8B

Qwen系列是阿里巴巴开源的一系列大语言模型。在此前的开源中，阿里巴巴共开源了3个系列的大模型，分别是70亿参数规模和140亿参数规模的Qwen-7B和Qwen-14B，还有一个是多模态大模型Qwen-VL。而此次阿里巴巴开源了720亿参数规模的Qwen-72b，是目前国内最大参数规模的开源大语言模型，应该也是全球范围内首次有和Llama2-70b同等规模的大语言模型开源。

2023/12/01 08:37:443,847

#Qwen-72B #Qwen大模型

2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

在本周，HuggingFace最流行的十个大模型多模态模型占了4个，包括StabilityAI最新开源的文本生成视频大模型Stable Video Diffusion、Coqui最新的语音合成大模型XTTS第二代等都吸引了大量的关注多。而大语言模型中，谷歌开源了2022年就已经发布的Switch大模型，该模型号称参数可以达到上万亿，也是十分有意思。

2023/11/26 23:53:444,258

#HuggingFace #多模态大模型

导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总

导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总

上周五，OpenAI董事会突然把Sam开除的事件已经结束，闹了好几天之后Sam回归，董事会改组。而这件事的背后导火索有许多传闻，其中最重要的一个是OpenAI可能在最近有一项重大的技术突破，被认为是Sam和董事会分歧的重要原因。而今天，国外的路透社独家消息提到OpenAI内部一个称为Q\*（Q Star）项目取得了非常重大的突破，使得部分人认为AGI很接近，进而引发了一系列事件。本文将根据目前的信息汇总介绍一下Q\*项目。

2023/11/23 18:21:24548

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT

最近自定义GPTs非常火热，出现了大量的自定义GPT，可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT，目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息，包括DataLearner网站上所有的大模型博客和技术介绍。

2023/11/12 11:25:501,313

#DataLearnerAI-GPT #OpenLLMLeaderboard

DataLearnerAI发布中国国产开源大模型生态概览统计：国产开源大模型都有哪些？现状如何？

DataLearnerAI发布中国国产开源大模型生态概览统计：国产开源大模型都有哪些？现状如何？

随着GPT的一路爆火，国内大模型的开源生态也开始火热。各大商业机构和科研组织都在不断发布自己的大模型产品和成果。但是，众多的大模型产品眼花缭乱。为了方便大家追踪国产开源大模型的发展情况，DataLearnerAI发布了中国国产大模型生态系统全景统计（地址：https://www.datalearner.com/china-opensource-llm ），本文也将根据这个统计结果简单分析当前国产开源大模型的生态发展情况。

2023/11/10 17:26:563,515

#中文大模型 #国产大模型

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早，智谱AI开源ChatGLM-6B之后，国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模，随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后，元象科技开源650亿参数规模的大语言模型XVERSE-65B，将国产开源大模型的参数规模提高到新的台阶。

2023/11/06 17:01:561,027

#XVERSE-65B #国产大模型

苹果最新的M3系列芯片对于大模型的使用来说未来价值如何？结果可能不太好！M3芯片与A100算力对比！

苹果最新的M3系列芯片对于大模型的使用来说未来价值如何？结果可能不太好！M3芯片与A100算力对比！

M3系列芯片是苹果最新发布的芯片。也是当前苹果性能最好的芯片。由于苹果的统一内存架构以及它的超大内存，此前很多人发现可以使用苹果的电脑来运行大语言模型。尽管它的运行速度不如英伟达最先进的显卡，但是由于超大的内存（显存），它可以载入非常大规模的模型。而此次的M3芯片效果如何，本文做一个简单的分析。

2023/10/31 16:52:174,669

#M3芯片 #M系列芯片

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解

在大语言模型的训练和应用中，计算精度是一个非常重要的概念，本文将详细解释关于大语言模型中FP32、FP16等精度概念，并说明为什么大语言模型的训练通常使用FP32精度。

2023/10/30 20:48:014,245

2023年AI与开源进展总结：来自LightningAI首席AI科学家Sebastian Raschka的2023年年度AI发展总结

2023年AI与开源进展总结：来自LightningAI首席AI科学家Sebastian Raschka的2023年年度AI发展总结

Sebastian Raschka博士是一位深度学习和人工智能研究员、程序员、作者和教育者。他曾是威斯康星大学麦迪逊分校的统计学助理教授，专注于机器学习和深度学习研究。然而，他在2023年辞职，全职投入到他在2022年加入的Lightning AI创业公司，担任首席AI教育者。本文是Sebastian Raschka博士最新的2023年AI进展总结的翻译，大家参考。

2023/10/24 22:31:20701

#2023报告 #大模型总结

大模型泛化能力详解：大模型泛化能力分类、泛化能力来源和泛化研究的方向

大模型泛化能力详解：大模型泛化能力分类、泛化能力来源和泛化研究的方向

关于什么是好的泛化、存在哪些类型的泛化以及在不同的场景中哪些应该被优先考虑，人们对此了解甚少且意见不一。而MetaAI等机构的研究人员最近发布了一篇关于大模型泛化能力的综述，详细总结了大模型泛化能力的分类等。本篇论文详细总结一下大模型的泛化能力分类以及什么样的泛化是未来的中的重点等问题。

2023/10/24 18:10:137,917

#Generalisation #大模型

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论

大模型应用中一个非常重要的问题就是大模型的响应速度。尤其是作为聊天应用来说，在用户输入之后，大模型可以在多短的时间内给出回应对于用户体验来说影响巨大。这里有2个问题经常会被大家所关注，一个是大模型每秒输出多少个tokens就可以满足用户的日常聊天使用，另一个问题是单张显卡最多可以支撑多少个用户的聊天需求。在前几天的vllm meetup上，贾扬清给出了一些讨论，他认为我们目前可能高估了大模型的聊天应用成本。

2023/10/10 23:35:252,190

#大模型性能 #大模型聊天速度

让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？

让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？

在大语言模型中，上下文长度是指模型可以考虑的输入数据的数量。更长的上下文在大语言模型的实际应用中有非常重要的价值。当前，让大语言模型支持更长的上下文有两种常用的方法，一种是训练支持更长上下文长度的模型，扩展模型的输入，另外一种是检索增强生成的方法（Retrieval Augmentation Generation，RAG）。但二者应该如何选择，这是一个很少能直接比较的问题。为此，英伟达（Nvidia）的研究人员做了一个详细的比较。

2023/10/10 15:28:482,385

#long-context #大语言模型

DataLearner大模型综合评测对比表！国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害~

DataLearner大模型综合评测对比表！国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害~

随着各种AI模型的快速发展，选择合适的模型成为了研究和开发的一大挑战。最近一段时间，国产模型不断涌现，让人应接不暇。尽管开源的繁荣提供了更多的选择，实际上也造成了选型的困难，尽管业界提供了很多评测基准，但是，**很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少，甚至只选择对自己有利的结果**。为了更加方便大家对比相关的结果，DataLearner上线了大模型评测综合排行对比表，给大家提供一个更加清晰的对比结果。我们主要关注的是国内开源大模型和一些全球主流模型的对比结果。

2023/09/22 11:52:3812,704

LM-SYS开源包含人类偏好的3.3万条真实对话语料：可用于RLHF的训练过程！

LM-SYS开源包含人类偏好的3.3万条真实对话语料：可用于RLHF的训练过程！

LM-SYS全称Large Model Systems Organization，是由加利福尼亚大学伯克利分校的学生和教师与加州大学圣地亚哥分校以及卡内基梅隆大学合作共同创立的开放式研究组织。该团队在2023年3月份成立，目前的工作是建立大模型的系统，是聊天机器人Vicuna的发布团队。今天开源了包含3.3万包含真实人类偏好的对话数据集和3000条专家标注的对话数据集：Chatbot Arena Conversation Dataset和MT-bench人工注释对话数据集。

2023/09/22 11:10:521,313

#ChatbotArenaConversationDataset #LM-SYS

text-davinci-003后继者！OpenAI发布了一个新的补全大模型：GPT-3.5-Turbo-Instruct，完全的指令模型，没有聊天优化

text-davinci-003后继者！OpenAI发布了一个新的补全大模型：GPT-3.5-Turbo-Instruct，完全的指令模型，没有聊天优化

OpenAI最新发布了GPT-3.5-Turbo-Instruct，这是一款强大的指令遵循大模型。尽管官方没有发布官方博客介绍，但我们将在本文中详细探讨这一模型的特点以及其在人工智能领域的价值。

2023/09/19 10:09:303,671

#GPT-3.5-Turbo-Instruct #指令大模型

LangChain提升大模型基于外部知识检索的准确率的新思路：更改传统文档排序方法，用 LongContextReorder提升大模型回答准确性！

LangChain提升大模型基于外部知识检索的准确率的新思路：更改传统文档排序方法，用 LongContextReorder提升大模型回答准确性！

检索增强生成（Retrieval-augmented generation，RAG）是一种将外部知识检索与大型语言模型生成相结合的方法，通常用于问答系统。当前使用大模型基于外部知识检索结果进行问答是当前大模型与外部知识结合最典型的方式，也是检索增强生成最新的应用。然而，近期的研究表明，这种方式并不总是最佳选择，特别是当检索到的文档数量较多时，这种方式很容易出现回答不准确的情况。为此，LangChain最新推出了LongContextReorder，推出了一种新思路解决这个问题。

2023/09/17 22:46:444,164

#LangChain #LongContextReorder

大模型如何使用长上下文信息？斯坦福大学最新论文证明，你需要将重要的信息放在输入的开始或者结尾处！

大模型如何使用长上下文信息？斯坦福大学最新论文证明，你需要将重要的信息放在输入的开始或者结尾处！

大模型的长输入在很多场景下都有非常重要的应用，如代码生成、故事续写、文本摘要等场景，支撑更长的输入通常意味着更好的结果。昨天，斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现：当相关信息出现在输入上下文的开始或结束时，大模型的性能通常最高，而当大模型必须访问长上下文中间的相关信息时，性能显著下降。本文将简单介绍一下这个现象。

2023/09/17 22:22:405,790

#long-context #大模型

Transformer蓝图：Transformer 神经网络架构的综合指南——万字长文、20多个图片介绍大语言模型主流架构Transformer的发展历史、现状和未来结果

Transformer蓝图：Transformer 神经网络架构的综合指南——万字长文、20多个图片介绍大语言模型主流架构Transformer的发展历史、现状和未来结果

CMU的工程人工智能硕士学位的研究生Jean de Nyandwi近期发表了一篇博客，详细介绍了当前大语言模型主流架构Transformer的历史发展和当前现状。这篇博客非常长，超过了1万字，20多个图，涵盖了Transformer之前的架构和发展。此外，这篇长篇介绍里面的公式内容并不多，所以对于害怕数学的童鞋来说也是十分不错。本文是其翻译版本，欢迎大家仔细学习。

2023/09/17 11:12:512,626

#Transformers架构 #大模型教程

如何训练一个大语言模型？当前基于transformer架构的大语言模型的通用训练流程介绍

如何训练一个大语言模型？当前基于transformer架构的大语言模型的通用训练流程介绍

在当今的人工智能领域，大型语言模型（LLM）已成为备受瞩目的研究方向之一。它们能够理解和生成人类语言，为各种自然语言处理任务提供强大的能力。然而，这些模型的训练不仅仅是将数据输入神经网络，还包括一个复杂的管线，其中包括预训练、监督微调和对齐三个关键步骤。本文将详细介绍这三个步骤，特别关注强化学习与人类反馈（RLHF）的作用和重要性。

2023/09/14 23:32:181,087

#大模型训练过程 #大模型预训练

1...789...18

专题合集

RAG（检索增强生成）Long Context 长上下文 AI Agent 实践

最热博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

OpenAI发布GPT-5：这是一个包含实时路由的AI系统，而不仅仅是一个模型
给初学者的深度学习简介
开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。
生成对抗网络简介（包含TensorFlow代码示例）【翻译】
Dask的Merge操作性能对比
《Effective Java 第三版》笔记之一创建静态工厂方法而不是使用构造器
MistralAI的混合专家大模型Mistral-7B×8-MoE详细介绍，效果超过LLaMA2-70B和GPT-3.5，推理速度快6倍

一个基于Python的机器学习项目——各种Kaggle比赛的解决方案