Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

在人工智能快速发展的今天，创新型模型如Mixtral 8x7B的出现，不仅推动了技术的进步，还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts（SMoE）架构的模型，不仅在技术层面上实现了创新，还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布，但是MistralAI今天才上传了这个模型的论文，我们可以看到更详细的信息。

2024/01/09 12:39:171,207

#MistralAI #Mixtral

OpenAI发布企业使用的ChatGPT：没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能，但是暂不支持私有化部署

OpenAI发布了ChatGPT的企业版，这是一个专为企业设计的聊天机器人。这个版本不仅提供了企业级的安全和隐私保护，还具有更高的处理速度和更多的自定义选项。相比较个人版的ChatGPT，企业版主要是提升了性能、强调了安全等。

2023/08/29 09:16:091,203

#ChatGPT #OpenAI

Kimi K2为什么开源？基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节：继承于DeepSeek V3架构，只为追求模型智能的上限

上周，MoonshotAI 发布了 Kimi K2，并宣布完全开源、允许商用。发布 24 小时内，社区即完成了 MLX 移植、4-bit 量化等后续工作。外网很多人评价说，Kimi K2是另一个DeepSeek R1时刻。本文尝试以第三方视角，把Kimi开发者公开的技术讨论、社区疑问与公开配置里的数字串成一条完整的技术决策链，解释Kimi K2背后的技术决策以及他们眼中大模型创业企业的方向。

2025/07/14 22:42:551,195

#AIAgent #K2

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:161,195

#AIAgent评测 #TerminalBench

LLaMA2 7B一样的性能但是由15倍的推理速度！Deci开源DeciLM-6B和DeciLM-6B-Instruct，发布一天上榜HuggingFace Trending

随着大型语言模型（LLMs）的不断发展，它们在训练和推理方面的计算需求已经呈指数级增长。这一趋势不仅带来了高昂的成本和能源消耗，还引入了模型部署和可伸缩性方面的障碍。为此，DeciLM开源了2个全新的DeciLM-6B和DeciLM-6B-Instruct大模型，参数比LLaMA2 7B略低，性能相当，但是推理速度却超过LLaMA2 7B的15倍。

2023/09/16 16:50:121,187

#DeciLM-6B-Instruct #DeciLM-6B

重磅！Scikit-learn与Hugging Face强强联手了！

Hugging Face一直在努力支持深度学习，但是，这只是深度学习的一部分。传统统计机器学习领域里面最重要的工具Scikit-learn如今终于和深度学习的开源标杆工具Hugging Face联手。

2022/10/18 23:36:351,185

#HuggingFace #sklearn

腾讯开源Hunyuan-A13B大模型：MoE架构，混合推理（支持直接回复和带推理过程后回复），原WizardLM团队打造，评测结果超Qwen2.5-72B，接近Qwen3-A22B，但参数量只有一半

腾讯发布并开源了其混元大模型系列的新成员Hunyuan-A13B。该模型定位为一个基于细粒度专家混合（MoE）架构的大语言模型。其主要特点是高效率和可扩展性，旨在为开发者和研究人员，特别是在资源受限的环境中，提供高级推理和通用应用能力。Hunyuan-A13B是由原来的微软的WizardLM团队成员打造，评测结果超Qwen2.5-72B和Qwen3-A22B

2025/06/27 17:39:571,184

#Hunyuan-A13B #Hunyuan

MiniMax M2.7 发布：模型开始帮自己训练自己

MiniMaxAI 刚刚发布了全新的 M2.7 模型，官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型，也就是说模型在训练过程中进行了自我分析并参与迭代。目前 M2.7 已经可以在官网使用，接口价格不变。不过该模型当前并未宣布开源，还不确定未来情况。

2026/04/06 11:26:321,183

#MiniMaxAI #MiniMaxM2.7

谷歌发布Genie 3：一个可以生成720P开启实时交互式虚拟世界生成新纪元

谷歌DeepMind发布了一个全新的大模型——Genie 3，这是一个能够根据文本描述生成多样化、可实时交互虚拟世界的通用世界模型。目前，Genie3可以生成几分钟的720P的视频，且每秒24帧左右。用户也可以在生成的视频中实时交互控制。从谷歌官方的视频看，这个Genie 3模型生成的视频和游戏世界的质量很高，非常令人心动！

2025/08/05 23:17:111,172

#Genie3 #Google

Aider Benchmark：面向代码编辑的大模型评测基准全解析

Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力，Aider 提出并维护了公开基准与排行榜，用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用，用作代码编辑与指令遵循能力的对照指标。

2025/08/20 03:50:121,166

#命令行助手 #大模型编程能力

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

AI Agent 的一个关键趋势正在浮现：从“快速回答问题”转向“长时间稳定执行复杂任务”。本文系统梳理了为什么 Anthropic、OpenAI 等企业开始强调“长时运行 Agent”，并解释其真实含义并非模型一直思考，而是通过作业化、异步执行、可恢复运行和动态上下文管理，实现跨会话完成复杂目标。文章深入对比了长时 Agent 与传统脚本化 LLM Loop 的本质差异，分析其在自治能力、上下文工程、耐久执行与治理上的核心价值，并总结构建长时运行 AI Agent 所需的关键技术等。

2026/01/04 23:01:191,159

#AIAgent #Long-RunningAgents

月之暗面开源了一个全新的160亿参数规模的MoE大语言模型Moonlight-16B：其训练算力仅需业界主流的一半

月之暗面（Moonshot AI）是此前中国大模型企业中非常受关注的一家企业。旗下的Kimi大模型和产品因为强悍的性能、超长的上下文以及非常快速的响应引起了广泛的关注。不过，此前MoonshotAI的策略一直是闭源模型，但是产品免费。也许是受到了DeepSeek的压力，月之暗面在2025年2月23日首次开源了旗下的一个小规模参数的大语言模型Moonlight-16B。

2025/02/23 21:08:111,154

#MoE大模型 #MoE架构

GPT-5.2与Gemini 3.0 Pro、Opus 4.5实测对比：前端页面没有更强

OpenAI 刚刚把 GPT-5.2 推上来了。我们在 DataLearnerAI 上把它和 Claude Opus 4.5、Gemini 3.0 Pro（Preview）放到同一个对比页里，拉齐公开评测与基础规格，做一个“站在真实选择角度”的快速判断。

2025/12/12 16:25:571,153

#GPT-5.2

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

昨天，Karpathy 发布了《2025 LLM Year in Review》，对过去一年大模型领域发生的结构性变化进行了深度复盘。在这篇总结中，他不再纠结于具体的模型参数，而是将目光投向了推理范式的演进、Agent 的真实形态以及一种被称为“Vibe Coding”的新型开发模式。

2025/12/21 21:10:171,151

#RLHF #RLVR

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

今天，OpenAI在其官网上发布了一个全新的研究成果：一个利用较弱的模型来引导对齐更强模型的能力的技术，称为由弱到强的泛化。OpenAI认为，未来十年来将诞生超过人类的超级AI系统。但是，这会出现一个问题，即基于人类反馈的强化学习技术将终结。因为彼时，人类的水平不如AI系统，所以可能无法再对模型输出的内容评估好坏。为此，OpenAI提出这种超级对齐技术，希望可以用较弱的模型来对齐较强的模型。这样可以在出现比人类更强的AI系统之后可以继续让AI模型可以遵循人类的意志、偏好和价值观。

2023/12/16 08:08:231,148

#OpenAI #强人工智能

大模型工具使用的三次进化：从 Function Calling 到程序化编排

本文系统梳理了大模型工具使用（Tool Use）的三个演进阶段：循环式工具选择（Function Calling）、计划驱动执行（Plan-then-Execute）和程序化工具编排（Programmatic Tool Calling）。从 OpenAI Function Calling 的单次调用模式，到支持并行调度的计划-执行范式，再到最新的代码驱动编排方式，工具使用正在从"逐步决策"走向"计划驱动、代码驱动"。

2026/01/08 22:08:571,148

#AIAgent #FunctionCalling

OpenAI官方最新研究成果：如何用GPT-4这样的语言模型来解释语言模型中的神经元（neurons）

今天，OpenAI官方宣布了一个非常有意思的论文，他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义，试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:441,146

#OpenAI #可解释性

大模型的多语言能力来自哪里？大模型是否有自己的内部语言？在英文数据集上学习到的知识可以用中文表达出来吗？

最近，Anthropic研究人员通过观察大模型内部运作机制发现了大模型内部可能存在一种与特定语言无关的内部共享区域，它可以把不同语种的输入，在同样的区域进行内部推理，并最终根据语种输出答案。这个现象让我们发现大模型本身理解语言的时候可能与人类类似，拥有高度抽象的内部表示，能够跨越多种语言统一相同的概念。

2025/03/30 18:41:001,140

#Anthropic #Claude

AI盛世如你所愿！昨天2个最新的开源“GPT”模型发布！

在最近的24个小时内，有2个开源的自然语言处理领域的开源预训练大模型发布。这两个模型都是类似GPT的Transformer模型，可以完成和ChatGPT类似的能力。最重要的是这2个模型完全开源！

2023/04/24 22:47:011,137

#Cerebras-GPT #GPT

Scale AI 发布 SWE-Bench Pro 评测：AI 软件工程代理的新基准

Scale AI 于 2025 年 9 月 21 日发布了 SWE-Bench Pro，这是一个针对 AI 代理在软件工程任务上的评估基准。该基准包含 1,865 个问题，来源于 41 个活跃维护的代码仓库，聚焦企业级复杂任务。现有模型在该基准上的表现显示出显著差距，顶级模型的通过率低于 25%，而最近的榜单更新显示部分模型已超过 40%。这一发布旨在推动 AI 在长时程软件开发中的应用研究。

2025/10/22 20:34:351,130

#SWE-BenchPro #大模型编程能力

DeepSeekV3-0324发布：DeepSeek V3基础上大幅升级推理能力和前端网页的美观度，多项评测结果超过GPT-4.5

2025年3月25日，DeepSeekAI低调开源了DeepSeek-V3-0324大模型。作为DeepSeek-V3的重要升级版本，该模型在推理能力、中文写作、前端开发以及功能调用等多个关键领域实现了显著提升。在MMLU Pro等评测上，已经成为了非推理大模型中最强的模型，部分评测结果超过GPT-4.5模型。

2025/03/25 19:07:301,129

#DeepSeekAI #DeepSeekV3-0324

MetaAI开源高质量高精度标注的图像数据集FACET：3.2万张图片、5万个主题，平均图像解析度达到1500×2000

MetaAI在2023年8月31日开源了一个全新的图像数据集，FACET（FAirness in Computer Vision EvaluaTion），FACET数据集包含32,000张图片和50,000人，这些图片由专家进行了详细的标注，包括人口统计属性（如感知性别表达和感知年龄组）和其他物理属性（如感知肤色和发型）。这样的设计使得研究人员可以更全面、更深入地评估模型在不同人群中的表现，从而更准确地识别和解决模型的不公平性问题。

2023/09/01 08:13:081,126

#FACET #图像数据集

最高50万美金！全新高额奖金的AI竞赛——AI预测大赛

预测在全球决策中发挥着关键作用。例如，关于COVID-19扩散的预测为国家封锁提供了信息，而经济预测则影响了利率的制定。这些预测通常依赖于人类专家的仔细判断，他们必须考虑来自各种来源的数据。由于人工智能系统能够处理大量的数据，它们在这个领域有可能非常有用。为此，ML Safety举办了一个关于AI预测的竞赛，比赛的目的是建立一个机器学习模型，做出准确和校准的预测。

2022/10/12 11:37:361,125

#竞赛

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:501,124

#MistralAI #MistralSmall3.1