最新AI大模型咨询与技术解读——来自DataLearnerAI

Moonshot AI 发布 Kimi K2 Thinking：连续执行200-300次顺序工具调用，人类最后难题评测得分超过所有模型，全球第一！依然免费开源商用！

就在今日，Moonshot AI 正式推出 Kimi K2 Thinking，这款开源思考代理模型以其革命性的工具集成和长程推理能力，瞬间点燃了开发者社区的热情。Kimi K2能自主执行200-300次连续工具调用，跨越数百步推理，解决PhD级数学难题或实时网络谜题。本次发布的Kimi K2不仅仅是模型升级，更是AI Agent能力的扩展。

2025/11/07 09:06:48 阅读 175

KimiK2/KimiK2Thinking/开源国产大模型/开源大模型

你的MiniMax M2模型效果为什么不好？可能是用错了，官方建议正确使用Interleaved Thinking，模型效果最多可提升35%的效果

MiniMax M2发布2周后已经成为OpenRouter上模型tokens使用最多的模型之一。已经成为另一个DeepSeek现象的大模型了。然而，实际使用中，很多人反馈说模型效果并不好。而此时，官方也下场了，说当前大家使用MiniMax M2效果不好的一个很重要的原因是没有正确使用Interleaved Thinking。正确使用Interleaved thinking模式，可以让MiniMax M2模型的效果最多可以提升35%！本文我们主要简单聊聊这个Interleaved thinking。

2025/11/05 22:34:28 阅读 165

InterleavedThinking/MiniMaxM2/交替思考/开源大模型/推理大模型

MiniMaxAI开源MiniMax M2模型：Artificial Analysis评测显示综合智能得分超过Claude Opus 4.1，开源第一，全球第五。

MiniMax正式开源MiniMax M2模型，该模型定位是“Mini 模型，Max 编码与代理工作流”。最大的特点是2300亿总参数量，但是每次推理仅激活100亿，类似于10B模型。这款模型非常火爆，原因在于这么小的激活参数数量，推理速度很快，但是其评测结果非常优秀。

2025/10/27 17:42:14 阅读 259

MiniMaxM2/开源大模型/编程大模型

新模型发布：Gemma 3 270M，为特定任务打造的高效工具

谷歌开源了其Gemma 3模型系列的新成员——Gemma 3 270M。该模型的设计理念并非追求通用性和大规模，而是专注于为定义明确的特定任务提供一个高效、紧凑的解决方案。其核心价值在于通过微调（fine-tuning）来执行专门化任务。

2025/08/15 09:07:41 阅读 121

gemma3/开源大模型/端侧大模型

智谱AI发布GLM-4.5V多模态推理模型

智谱AI刚刚开源了新一代视觉-语言模型（Vision-Language Model, VLM）——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air（总参数量1060亿，激活参数量120亿），延续GLM-4.1V-Thinking的技术路线，在42项公开视觉多模态基准测试中，在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景，采用Mixture-of-Experts（MoE）架构，并保持开源。

2025/08/11 23:28:48 阅读 277

GLM-4.5V/开源大模型/智谱AI/视觉理解大模型

OpenAI开源2个全新大模型，比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B，完全免费商用授权

在几个小时前，OpenAI开源了两款名为gpt-oss-120b和gpt-oss-20b的大语言模型。这是自GPT-2以来，OpenAI首次推出开源权重大语言模型，这两个模型的评测效果达到了o4-mini和o3-mini的水平，而且以Apache 2.0协议开源，大家可以自由使用，包括任何形式的商用。

2025/08/06 09:22:22 阅读 232

GPT-OSS/GPT-OSS-120B/GPT-OSS-20B/OpenAI/开源大模型

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

7月28日，智谱AI（Zhipu AI）向开源社区投下了一枚重磅炸弹，正式发布了其最新的旗舰模型系列：GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air，两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型，以应对日益复杂的AI应用需求。本文将深入解析这份官方报告，剖析其核心技术、性能表现，并探讨其在当前大模型竞争格局中的战略定位。

2025/07/29 11:06:25 阅读 458

GLM-4.5系列/MoE架构/开源大模型/混合推理

华为开源2个Pangu大模型：分别是MoE架构，720亿总参数，160亿激活参数的Pangu Pro MoE以及Pangu Embedded，评测结果略超同级别的Qwen3

盘古大模型是华为自研的大语言模型，基于华为的硬件和技术栈进行训练。此前一直被认为是国产技术占比很高的国产大模型。今天，华为开源了2个盘古大模型，分别是MoE架构的Pangu Pro MoE模型以及70亿参数规模的Pangu Embedded模型。

2025/07/01 07:36:33 阅读 375

Pangu/Pangu大模型/华为/开源大模型/盘古大模型

重磅！百度文心一言开源，包含2个多模态大模型，4个大语言模型，最大参数量4240亿！完全免费商用授权！

今天，百度正式宣布开源其最新的旗舰级大模型系列——ERNIE 4.5。ERNIE 4.5系列模型当前包含2个多模态大模型，4个大语言模型及其不同变体的庞大家族，还区分了PyTorch版本和paddlepaddle版本，共23个模型，其核心采用了创新的异构多模态混合专家（MoE）架构，在提升多模态理解能力的同时，实现了文本处理性能的同步增强。每个版本的模型都开源了基座（Base）版本和后训练版本（不带Base）。

2025/06/30 13:44:47 阅读 402

ERINE/ERINE-4.5/开源大模型

DeepSeekV3-0324发布：DeepSeek V3基础上大幅升级推理能力和前端网页的美观度，多项评测结果超过GPT-4.5

2025年3月25日，DeepSeekAI低调开源了DeepSeek-V3-0324大模型。作为DeepSeek-V3的重要升级版本，该模型在推理能力、中文写作、前端开发以及功能调用等多个关键领域实现了显著提升。在MMLU Pro等评测上，已经成为了非推理大模型中最强的模型，部分评测结果超过GPT-4.5模型。

2025/03/25 19:07:30 阅读 601

DeepSeekAI/DeepSeekV3/DeepSeekV3-0324/开源大模型

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50 阅读 530

MistralAI/MistralSmall3.1/多模态大模型/开源大模型

月之暗面开源了一个全新的160亿参数规模的MoE大语言模型Moonlight-16B：其训练算力仅需业界主流的一半

月之暗面（Moonshot AI）是此前中国大模型企业中非常受关注的一家企业。旗下的Kimi大模型和产品因为强悍的性能、超长的上下文以及非常快速的响应引起了广泛的关注。不过，此前MoonshotAI的策略一直是闭源模型，但是产品免费。也许是受到了DeepSeek的压力，月之暗面在2025年2月23日首次开源了旗下的一个小规模参数的大语言模型Moonlight-16B。

2025/02/23 21:08:11 阅读 638

MoE大模型/MoE架构/Moonlight-16B/开源大模型

可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数

Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿，但是在多个评测结果上都取得了非常亮眼的成绩。今天，微软发布了第三代Phi系列大模型，最高参数规模也到了140亿，其中最小的模型参数38亿，评测结果接近GPT-3.5的水平。

2024/04/23 13:56:44 阅读 887

Phi3/小规模参数大模型/小规模参数语言模型/开源大模型/手机运行大模型

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

开源大语言模型经过一年多的发展，终于有一个模型可以在权威榜单上击败GPT-4的较早的版本，这就是CohereAI企业开源的Command R+。这是一个开源但是不允许商用的模型，参数规模达到1040亿，也是目前为止开源参数规模最大的一个模型。

2024/04/09 20:35:23 阅读 1625

CohereAI/CommandR/CommandR+/RAG/开源大模型/检索增强生成

国产MoE架构模型大爆发！深圳元象科技XVERSE开源256亿参数MoE大模型XVERSE-MoE-A4.2B，评测结果接近Llama1-65B

混合专家架构大模型是当前最火热的一个大模型技术发展方向。三月底，业界开源了多个混合专家大模型，包括DBRX、Qwen1.5-MoE-A2.7B等。而在四月初，又一家国产大模型企业开源了一个全新的MoE架构的模型，即深圳元象科技XVERSE开源的XVERSE-MoE-A4.2B。该模型参数256亿，推理时仅激活42亿参数，效果与当前主流的130亿参数的规模差不多。

2024/04/07 22:44:28 阅读 706

MoE/XVERSE/XVERSE-MoE-A4.2B/开源大模型/混合专家模型

重磅！谷歌开源Gemini同源技术大模型Gemma，分别为70亿参数和20亿参数，同等规模参数评测极其优秀！

Google Gemini是谷歌最新推出的和OpenAI竞争的大语言模型。尽管Gemini褒贬不一，但是Gemini模型的影响力是巨大的。而现在更加令人激动的是谷歌开源了2个新的不同参数规模的模型，分别是Gemma 7B和Gemma 2B，其技术与Gemini模型一致。但是这两个开源模型完全公开，可以商用授权。

2024/02/21 22:02:28 阅读 2337

Gemini/Gemma/Google/开源大模型

Google前AI研究人员认为2024年可能不会出现能与GPT-4竞争的开源模型/产品

OpenAI在2023年3月份发布了GPT-4，10个月过去了，目前也没有任何一家产品或者模型可以打败GPT-4。但是，很多人都对2024年抱有非常好的期待，认为2024年会出现能与GPT-4竞争的大模型。包括MistralAI的CEO也说他们会在2024年发布性能媲美GPT-4的大模型。但是，Google前AI研究人员，GalileoAI的联合创始人认为2024年也不会出现这种情况。

2024/01/02 10:54:48 阅读 481

GPT-4/开源大模型

2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

在本周，HuggingFace最流行的十个大模型多模态模型占了4个，包括StabilityAI最新开源的文本生成视频大模型Stable Video Diffusion、Coqui最新的语音合成大模型XTTS第二代等都吸引了大量的关注多。而大语言模型中，谷歌开源了2022年就已经发布的Switch大模型，该模型号称参数可以达到上万亿，也是十分有意思。

2023/11/26 23:53:44 阅读 4089

HuggingFace/多模态大模型/开源大模型

DataLearnerAI发布中国国产开源大模型生态概览统计：国产开源大模型都有哪些？现状如何？

随着GPT的一路爆火，国内大模型的开源生态也开始火热。各大商业机构和科研组织都在不断发布自己的大模型产品和成果。但是，众多的大模型产品眼花缭乱。为了方便大家追踪国产开源大模型的发展情况，DataLearnerAI发布了中国国产大模型生态系统全景统计（地址：https://www.datalearner.com/china-opensource-llm ），本文也将根据这个统计结果简单分析当前国产开源大模型的生态发展情况。

2023/11/10 17:26:56 阅读 3221

中文大模型/国产大模型/国产开源大模型/大模型

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早，智谱AI开源ChatGLM-6B之后，国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模，随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后，元象科技开源650亿参数规模的大语言模型XVERSE-65B，将国产开源大模型的参数规模提高到新的台阶。

2023/11/06 17:01:56 阅读 890

XVERSE-65B/国产大模型/开源大模型

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开，开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏，对中文大模型以及业界模型的中文支持都有很大的影响。此次，上海人工智能实验室发布的这个数据集包含了丰富的中文，对于大模型的中文能力提升十分有价值。

2023/08/24 16:39:22 阅读 4755

中文预训练数据集/大模型数据集/开源数据集

AI2发布全新的大语言模型预训练数据集：包含3万亿tokens的大规模文本数据集AI2 Dolma，开源免费商用数据集~

Allen Institute for AI简称AI2，是2014年成立的一个非营利性研究组织，其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目，希望借助AI来推动科学、医学等领域的进步。此前也开源过大模型OLMo等。这次是该组织第一份发布AI数据集相关的项目，名称位Dolma，是一个包含了3万亿tokens的数据集，目前第一版本仅仅包含英文。

2023/08/21 21:49:30 阅读 1820

Dolma/开源数据集/数据集/预训练数据集

大模型领域最著名开源模型小羊驼Vicuna升级！Vicuna发布1.5版本，可以免费商用了！最高支持16K上下文！

Vicuna是开源领域最强最著名的大语言模型，是UC伯克利大学的研究人员联合其它几家研究机构共同推出的一系列基于LLaMA微调的大语言模型。这个系列的模型因为极其良好的表现以及官方提供的匿名评测而广受欢迎。今天，LM-SYS发布Vicuna 1.5版本，包含4个模型，全部基于LLaMA2微调，最高支持16K上下文输入，最重要的是基于LLaMA2的可商用授权协议！免费商用授权！

2023/08/03 14:14:54 阅读 3796

LLaMA2/vicuna/开源

支持超长上下文输入的大语言模型评测和总结——ChatGLM2-6B表现惨烈，最强的依然是商业模型GPT-3.5与Claude-1.3

目前开源领域已经有一些模型宣称支持了8K甚至是更长的上下文。那么这些模型在长上下文的支持上表现到底如何？最近LM-SYS发布了LongChat-7B和LangChat-13B模型，最高支持16K的上下文输入。为了评估这两个模型在长上下文的表现，他们对很多模型在长上下文的表现做了评测，让我们看看这些模型的表现到底怎么样。

2023/07/02 09:40:48 阅读 3723

LLM/long-context/开源大模型/超长上下文

最新博客