Search blog

加载中...

DataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

Leaderboards
模型对比
Datasets

资源

Tutorials
Editorial
Tool directory

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款

Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据！

ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据！

ChatGPT的发展速度很快，在前面已经介绍过ChatGPT即将推出的Team订阅计划和新界面，包括对接自定义数据和自定义接口等。此外，DataLearnerAI还发现ChatGPT即将推出关联APP的能力，截图显示，目前已经测试了对接Google Drive和Microsoft 365两个。

2023/11/04 19:40:59597

#ChatGPT #ChatGPTContextConnectors

重磅！谷歌发布 Nano Banana Pro（Gemini 3 Pro Image）：图像生成质量大幅提升！一次可以支持14张图片合成，5个对象保持一致！图像生成正式进入“理解驱动”阶段！

重磅！谷歌发布 Nano Banana Pro（Gemini 3 Pro Image）：图像生成质量大幅提升！一次可以支持14张图片合成，5个对象保持一致！图像生成正式进入“理解驱动”阶段！

就在刚才，谷歌推出了 Nano Banana Pro（Gemini 3 Pro Image）。这是基于 Gemini 3 Pro 打造的专业级图像生成与编辑模型，相比几个月前的 Nano Banana，这次升级几乎重构了谷歌图像生成能力的上限。从文本渲染、多图一致性，到世界知识、摄影级控制和信息可视化，Nano Banana Pro 在多个维度显著拉开了与上一代、乃至整个行业同类产品的差距。

2025/11/21 00:52:53607

#Google #NanoBanana

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

昨天，Karpathy 发布了《2025 LLM Year in Review》，对过去一年大模型领域发生的结构性变化进行了深度复盘。在这篇总结中，他不再纠结于具体的模型参数，而是将目光投向了推理范式的演进、Agent 的真实形态以及一种被称为“Vibe Coding”的新型开发模式。

2025/12/21 21:10:17608

Google发布全新Gemini 2.5 Flash Lite：极致速度与性价比的轻量级新选择，实测生成速度最高可超过400 tokens/每秒，能力喜人！堪称甜品级大模型！

Google发布全新Gemini 2.5 Flash Lite：极致速度与性价比的轻量级新选择，实测生成速度最高可超过400 tokens/每秒，能力喜人！堪称甜品级大模型！

今天，Google发布Gemini 2.5 Flash Lite。这是一款专为追求极致速度、超低延迟和高性价比场景打造的轻量级模型。它的发布标志着 Google 正在将旗舰模型的先进能力（如百万级上下文、原生多模态、工具调用等）逐步下放到更轻量、更经济的模型层级。根据 DataLearnerAI 的实测，这款模型的生成速度最高可达 400 tokens/秒，即使在输入达到 18K tokens 的情况下，也依然可以维持在 160+ tokens/秒的性能表现，令人惊喜。

2025/06/18 11:51:32610

#Gemini2.5 #Gemini2.5FlashLite

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

2025/03/17 14:10:25611

#ERNIE4.5 #ERNIEX1

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B：图片文本带有中英文混排，指定比例范围内的任意尺寸图像可生成，免费商用授权

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B：图片文本带有中英文混排，指定比例范围内的任意尺寸图像可生成，免费商用授权

智谱AI开源了一个60亿参数规模的文生图大模型CogView4-6B，支持生成的图像中加入文字，文字效果自然融入图像中，且该模型支持支持宽高范围512px至2048px内的任意尺寸图像（有限制，正文解释）。

2025/03/05 12:50:12613

#CogView #CogView4-6B

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:16619

#AIAgent评测 #TerminalBench

传闻OpenAI内部大模型推理能力获得进展，Q*项目进化成Strawberry！并且距离发布时间更近了！

传闻OpenAI内部大模型推理能力获得进展，Q*项目进化成Strawberry！并且距离发布时间更近了！

尽管各家大模型技术进展神速，但是在复杂任务的推理上，大模型目前依然较弱。在去年底，各方消息透露，OpenAI内部有一个称为Q\*的项目取得了重大的突破，可以大幅提高大模型的推理能力。但是，几个月过去了，这个当时吸引了大量讨论的项目没有任何信息。直到昨天，Reuters披露了Q\*项目的进展，这个项目已经变为Strawberry！并且距离发布时间更近了！

2024/07/14 19:30:10635

大模型到底能否真正提升写代码效率？Anthropic 内部 20 万条数据首次公开大模型在真实代码工作流中的表现

大模型到底能否真正提升写代码效率？Anthropic 内部 20 万条数据首次公开大模型在真实代码工作流中的表现

大模型究竟能否真正提升工程师的编码效率？Anthropic 最近发布的一份重量级内部研究给出了少见的、基于真实工程环境的数据答案。研究覆盖 132 名工程师、53 场深度访谈，以及 20 万条 Claude Code 使用记录，展示了 AI 在软件工程中的实际作用：从生产力显著提升（人均合并 PR 数同比增长 67%）、任务空间扩张（27% 的 Claude 工作原本不会被执行），到工程师技能版图、协作方式与职业路径的深刻变化。与此同时，研究也揭示了技能萎缩、监督负担、工作流变化等新挑战。这是一份罕见的“

2025/12/04 22:37:32637

#大模型应用 #大模型技术

OpenAI Harmony 消息格式技术详解：一种为高级 Agent 设计的精细化消息格式

OpenAI Harmony 消息格式技术详解：一种为高级 Agent 设计的精细化消息格式

近日，OpenAI在发布其开源模型gpt-oss-120b和gpt-oss-20b的同时，也推出了一种专为这些模型设计的全新消息格式——Harmony。对于希望在自有解决方案中充分利用这些开源模型的开发者而言，理解Harmony至关重要。本文将以客观的第三方视角，详细解析Harmony格式的设计理念与技术细节。

2025/08/07 17:17:38637

#OpenAIHarmony消息格式 #大模型技术

重磅！马斯克宣布本周开源xAI开发的大语言模型Grok！

重磅！马斯克宣布本周开源xAI开发的大语言模型Grok！

就在刚刚，马斯克在推特上宣布本周会开源Grok大语言模型。xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆，离开OpenAI之后马斯克又再次开始推出大模型，就是这个Grok。

2024/03/11 17:06:46637

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

Hunyuan大模型是腾讯训练的大模型品牌名，2022年4月份，某中文语言理解能力排行榜第一名就出现了Hunyuan模型，在2022年11月，Hunyuan大模型就有了1万亿参数的规模，即HunYuan-NLP 1T大模型（比ChatGPT还早发布）。但是最近2年，这个系列的模型几乎没有出现在公众视野上。而昨天（2025年3月10日），Hunyuan官方在X平台上宣布了旗下最新的Hunyuan Turbo S大模型，称其在多个评测基准上超越了GPT-4o的表现。

2025/03/11 22:51:48641

#HunyuanTurboS #混元大模型

腾讯发布全新推理大模型Hunyuan-T1：mamba与transformer结合的新架构，与业界模型对比评测结果不错，但是不开源

腾讯发布全新推理大模型Hunyuan-T1：mamba与transformer结合的新架构，与业界模型对比评测结果不错，但是不开源

2025年3月21日，腾讯正式推出其全新大模型**Hunyuan-T1**，该模型基于此前发布的TurboS快速思维基座，首次采用**Hybrid-Transformer-Mamba混合专家架构（MoE）**，在推理效率、长文本处理及资源消耗优化等方面表现还不错。此外，这个新架构也使得Hunyuan-T1速度非常快，模型支持首字符1秒内响应，生成速度达60-80 token/秒，适用于实时交互场景。

2025/03/22 11:43:19645

#Hunyuan-T1 #HunyuanTurboS

Kimi K2为什么开源？基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节：继承于DeepSeek V3架构，只为追求模型智能的上限

Kimi K2为什么开源？基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节：继承于DeepSeek V3架构，只为追求模型智能的上限

上周，MoonshotAI 发布了 Kimi K2，并宣布完全开源、允许商用。发布 24 小时内，社区即完成了 MLX 移植、4-bit 量化等后续工作。外网很多人评价说，Kimi K2是另一个DeepSeek R1时刻。本文尝试以第三方视角，把Kimi开发者公开的技术讨论、社区疑问与公开配置里的数字串成一条完整的技术决策链，解释Kimi K2背后的技术决策以及他们眼中大模型创业企业的方向。

2025/07/14 22:42:55650

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

就在刚才，智谱推出了两个语音识别模型：闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同，这次聚焦的是语音转文字（ASR）任务，尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

2025/12/10 11:10:41653

GPT-4来了！微软德国CTO透露GPT-4将是多模态模型，并于下周发布！

GPT-4来了！微软德国CTO透露GPT-4将是多模态模型，并于下周发布！

万众瞩目的GPT-4即将来临！3月9日晚上在德国举办的一个AI会议。微软德国的员工参与了讨论，在介绍微软云的AI能力的时候，微软德国CTO Andreas Braun透露了GPT-4将在下周发布。

2023/03/10 09:10:08653

除了Mistral-7B-MoE外，MistralAI还有更强大的模型，未宣布的Mistral-medium比混合专家模型更强！

除了Mistral-7B-MoE外，MistralAI还有更强大的模型，未宣布的Mistral-medium比混合专家模型更强！

MistralAI开源的混合专家模型Mistral-7B×8-MoE在本周吸引了大量的关注。这个模型不仅是稍有的基于混合专家技术开源的大模型，而且有较高的性能、较低的推理成本、支持法语、德语等特性。昨天MistralAI发布的不仅仅是这个混合专家模型，还有他们的平台服务La plateforme。在这里他们透露了MistralAI还有更加强大的模型。

2023/12/12 09:07:04654

#Mistral-Medium #Mistral-small

Anthropic发布Claude4，全球最强编程大模型，大幅提升AI Agent系统所需的各项能力，最长可以7小时连续工作，持续工作、工具使用、记忆使用方面大幅提升

Anthropic发布Claude4，全球最强编程大模型，大幅提升AI Agent系统所需的各项能力，最长可以7小时连续工作，持续工作、工具使用、记忆使用方面大幅提升

2025年5月23日，Anthropic发布了新一代大语言模型Claude 4系列，包括Claude Opus 4和Claude Sonnet 4两个版本。Anthropic的官方博客强调Claude Opus 4是当前全球最强的编程大模型，与传统聚焦于文本生成和知识问答的模型不同，Claude 4明确定位为任务执行引擎和AI Agent系统的核心组件。这次发布不仅仅是性能参数的提升，更代表了Anthropic认为AI模型从"对话助手"向"自主工作伙伴"的根本性转变。

2025/05/25 14:37:31666

#Anthropic #Claude4

Minion Skills: Claude Skills的开源实现

Minion Skills: Claude Skills的开源实现

本文介绍了 Claude 最近推出的 Skills 系统，以及作者在 Minion 框架中实现的一个完全开源的版本。Skills 的核心思路是让 AI Agent 在需要时再加载对应的专业能力，而不是一开始就把所有工具和知识都塞进上下文，从而缓解上下文窗口有限、成本高、响应慢的问题。

2025/12/17 22:06:31667

#Agent技巧 #ClaudeSkills

MMMU基准：多模态多学科复杂推理能力的权威评估体系

MMMU基准：多模态多学科复杂推理能力的权威评估体系

大规模多学科多模态理解与推理基准（MMMU）于2023年11月推出，是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同，MMMU强调跨多个领域的先进感知和推理，旨在衡量朝专家级人工智能通用智能（AGI）的进展。

2025/05/05 21:48:00678

#MMMU #多模态评测

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

7月28日，智谱AI（Zhipu AI）向开源社区投下了一枚重磅炸弹，正式发布了其最新的旗舰模型系列：GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air，两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型，以应对日益复杂的AI应用需求。本文将深入解析这份官方报告，剖析其核心技术、性能表现，并探讨其在当前大模型竞争格局中的战略定位。

2025/07/29 11:06:25681

#GLM-4.5系列 #MoE架构

疑似GPT-4.5的定价截图泄露，但真假未知，不过GPT-4微调的功能已经推出，只能说非常贵！

疑似GPT-4.5的定价截图泄露，但真假未知，不过GPT-4微调的功能已经推出，只能说非常贵！

网络流传了一张疑似GPT-4.5的定价截图，引爆了很多人的讨论。但是，目前没有人可以确定真假。

2023/12/15 08:33:31684

#GPT-4 #GPT-4.5

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50690

#MistralAI #MistralSmall3.1

2023年AI与开源进展总结：来自LightningAI首席AI科学家Sebastian Raschka的2023年年度AI发展总结

2023年AI与开源进展总结：来自LightningAI首席AI科学家Sebastian Raschka的2023年年度AI发展总结

Sebastian Raschka博士是一位深度学习和人工智能研究员、程序员、作者和教育者。他曾是威斯康星大学麦迪逊分校的统计学助理教授，专注于机器学习和深度学习研究。然而，他在2023年辞职，全职投入到他在2022年加入的Lightning AI创业公司，担任首席AI教育者。本文是Sebastian Raschka博士最新的2023年AI进展总结的翻译，大家参考。

2023/10/24 22:31:20691

#2023报告 #大模型总结

1...567...39

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8H5文件简介和使用

Today's Picks

Eclipse安装SVN插件
线性数据结构之跳跃列表（Skip List）详解及其Java实现
总结一下截止2023年中旬全球主要厂商拥有的GPU数量以及训练GPT-3/LLaMA2所需要的GPU数量
Pandas用法小册子
重磅！阿里巴巴开源自家首个MoE技术大模型：Qwen1.5-MoE-A2.7B，性能约等于70亿参数规模的大模型Mistral-7B
大模型评测的新标杆：超高难度的“Humanity’s Last Exam”（HLE）介绍
你成功啦！！！

基于Emebdding的检索增强生成效果不同模型对比：重排序十分有利于检索增强生成的效果