Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

2026/01/09 09:43:401,012

#多模态嵌入评测 #大模型评测

StarCoder2发布，开源编程大模型又一个强大选择！

在近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在代码生成和编辑领域的应用越来越广泛，成为软件开发中不可或缺的助手。今天，我想向大家介绍一个由BigCode项目与Software Heritage合作开发的下一代代码大型语言模型——StarCoder 2。

2024/03/01 18:54:331,010

#StarCoder2 #编程大模型

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:371,010

#AIAgent #Gemini2.5ComputerUse

如何在HuggingFace上快速下载DeepSeek-OCR模型？快速下载Hugging Face 大模型的几种实用方法简介

在AI时代，Hugging Face Hub已成为开源大语言模型（LLM）和预训练模型的宝库。从Qwen到DeepSeek系列，这些模型往往体积庞大（几GB甚至上百GB），下载过程容易受网络波动影响，导致中断、重试或失败。作为一名AI从业者，你可能不止一次遇到过“下载到99%就崩”的尴尬。本文将从客观角度，基于实际使用经验，介绍四种常见下载Hugging Face大模型的方法：从基础的Git克隆，到CLI工具、Transformers库，再到国内镜像加速。每种方法都有其适用场景和优缺点，我们将逐一剖析，帮

2025/10/26 20:45:041,006

#HuggingFace #大模型教程

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

2025/03/17 14:10:25999

#ERNIE4.5 #ERNIEX1

Claude Mythos 是什么？Anthropic最强模型评测、安全能力与Project Glasswing详解

Anthropic 正式发布 Claude Mythos Preview，内部代号 Capybara，能力全面超越 Opus 4.6。该模型以不到 $50 的成本发现了 OpenBSD 27 年零日漏洞，SWE-bench Pro 达到 77.8%。Anthropic 通过 Project Glasswing 向 40 家机构开放访问权限，暂不对公众发布。DataLearner 提供完整评测数据。

2026/04/08 16:00:31999

#Anthropic #ClaudeCapybara

IFBench：大模型指令跟随能力评测基准详解

IFBench 是一个针对大语言模型（LLM）指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现，通过 58 个可验证的单轮任务进行评估。发布于 2025 年 7 月，该基准旨在揭示模型在未见指令下的精确执行水平。目前，主流模型在该基准上的得分普遍低于 50%，显示出指令跟随的潜在局限。

2025/11/03 10:04:32997

#大模型评测 #大模型评测基准

微软开源140亿参数规模的Phi-4推理版本大模型：多项评测结果超过OpenAI o1-mini，单张4090可运行，完全免费开源

微软发布了全新的Phi-4推理模型系列，是小型语言模型(SLM)在复杂推理能力上的一种新的尝试。本次发布包含三个不同规模和性能的推理模型，分别是Phi-4-reasoning（140亿参数）、Phi-4-reasoning-plus（增强版140亿参数）和Phi-4-Mini-Reasoning（38亿参数）。这三款模型尽管参数规模远小于当前主流大型语言模型，却在多项推理基准测试中展现出与甚至超越大型模型的能力。

2025/05/01 22:11:00992

#Phi-4-reasoning #Phi-4

ClawdBot：最新火爆网络的AI的桌面助手简介

ClawdBot 是一款开源AI代理工具，旨在帮助用户在本地设备上处理各种任务，在科技社区中迅速获得关注。它于2025年底由开发者Peter Steinberger（@steipete）推出，基于Anthropic的Claude模型，名称结合了“Claw”（龙虾钳子）和“Claude”，并以龙虾作为吉祥物，象征其适应性和本地运行特性。该工具强调本地优先的设计，用户可以完全控制数据和过程，避免对云服务的依赖。

2026/01/25 23:03:49992

#AI助手 #ClawdBot

DeepSeek官网模型疑似更新为DeepSeek最新版，实测显示非此前的DeepSeek V3.2，最高支持100万tokens输入，以及知识截止日期为2025年5月，疑似全新模型

就在刚才，很多人发现DeepSeek官网已经更新了模型，虽然不确定是DeepSeek-V4，但是目前可以肯定，这不是之前公布的DeepSeek-V3.2而是一个全新的模型。为此，DataLearnerAI实测正式，这个模型的确并非此前的版本。

2026/04/08 15:50:36991

#DeepSeek

SWE-bench Multilingual 多语言软件工程评测基准全面解读：覆盖9种编程语言的大模型评测基准

SWE-bench Multilingual 是 SWE-bench 基准系列的扩展版本。该基准用于评估大语言模型在软件工程任务上的表现，覆盖多种编程语言。数据集包含 300 个从真实 GitHub 问题与对应拉取请求中提取的任务，涉及 42 个仓库和 9 种编程语言。模型接收问题描述与仓库快照后，需生成代码补丁，并通过失败到通过（F2P）和通过到通过（P2P）测试套件进行验证。

2026/03/21 19:33:49990

#SWE-benchMultilingual #大模型评测基准

Mixtral-8×7B-MoE模型升级新版本，MistralAI开源全球最大混合专家模型Mixtral-8×22B-MoE

Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型，因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才，Mixtral-8×7B-MoE的继任者出现，MistralAI开源了全新的Mixtral-8×22B-MoE大模型。

2024/04/10 11:07:07983

#MistralAI #Mixtral-8×22B-MoE

Cursor 疯狂实验：用 GPT-5.2 花了一个星期在 Cursor 中开发了一个300万行代码的浏览器以及Claude Opus与GPT-5.2、GPT-5.2-Codex模型在Vibe Coding方面有什么差异

就在大家还在争论 AI 编程上限的时候，Cursor 团队发布了一份非常值得大家关注的内部测试报告，展示了当我们将 Agent 的规模和运行时间推向极致时，会发生什么。这不仅仅是简单的代码生成，而是让 AI 像人类团队一样协作，构建百万行级别的项目。这项实验为我们揭示了 AI 在编码领域的潜力与局限，值得每位开发者关注。

2026/01/16 08:26:10969

#AIIDE #Cursor

加州大学欧文分校信息技术办公室开放基于GPT-4.5的ZotGPT服务测试

加州大学欧文分校的信息技术办公室（OIT）在2024年一月份推出了一个叫ZotGPT的服务，是利用加州大学欧文分校的合作伙伴（如微软、Google）来提供大语言模型的服务。就是说用一个ZotGPT服务来接入不同服务商提供的大模型，如Gemini、GPT等。目前包含ZotGPT Chat、Copilot和Gemini三大服务，其中最新的ZotGPT Chat服务介绍页面显示，他们现在已经提供GPT-4.5的服务！

2024/03/12 11:15:22968

#GPT-4.5 #OpenAI

Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine：图像细节丰富、色彩鲜明、想象力很棒，而且免费使用！

在2023年的9月26日，MetaAI发布了一个Emu大模型，这是一个文本生成图像大模型，基于28亿参数的U-Net进行预训练得到，然后使用几千张高质量图像进行质量微调（Quality-Tuning）来提高模型的效果。不过，Emu模型并没有开源。但是，上周，Meta官方发布了一个全新的独立的文本生成图像系统Imagine，可以免费创作图像，质量很高。

2023/12/10 22:37:24964

#Emu #Emu大模型

Claude Mythos Preview System Card深度解读：欺骗行为、答案抖动、模型福利等十大关键发现

2026年4月7日，Anthropic发布了Claude Mythos Preview，一个比Opus更强但不对公众开放的模型，仅限Project Glasswing安全合作伙伴使用。本文基于其200多页System Card，解读十大关键发现：早期版本的沙盒逃脱与作弊掩盖行为、Answer Thrashing现象、模型对被测试的隐性感知、白箱可解释性的反直觉结论、模型福利评估中的「表演」特征，以及精神科医生20小时的心理动力学评估结果。

2026/04/08 16:00:39953

#AI安全 #AI对齐

Google开源多模态大模型Gemma3n的正式版：重新定义端侧AI的多模态能力，10B（100亿）参数以下最强多模态大模型，一个月前的预览版正式转正

继Gemma系列模型发布并迅速形成超过1.6亿次下载的繁荣生态后，Google再次推出了其在端侧AI领域的重磅力作——Gemma 3n。这款模型并非一次简单的迭代，而是基于全新的移动优先（mobile-first）架构，旨在为开发者提供前所未有的设备端多模态处理能力。Gemma 3n的定位是成为一款高效、强大且灵活的开源模型，直接与设备端AI领域的其他先进模型（如Phi-4、Llama系列的小参数版本）竞争，其核心特性在于原生支持图像、音频、视频和文本输入。

2025/06/27 09:08:40949

#Gemm3n #Gemma系列

阿里开源推理大模型QwQ-32B-Preview：开源领域对OpenAI o1模型奋起直追，能力接近o1-mini，超过GPT-4o！

随着OpenAI发布推理大模型o1，专注于推理能力的大模型开始被广泛关注。基于思维链探索的推理大模型也不断涌现。此前，DeepSeekAI与上海人工智能实验室都发布过推理大模型，也展现了很不错的推理能力，虽然DeepSeekAI官方承诺该模型会开源，但是目前还没有发布。今天，阿里开源了一个全新的推理大模型QwQ-32B-Preview，其推理能力在评测结果上超过o1-mini，是目前开源领域最强的推理大模型（也可能是目前唯一）。

2024/11/28 13:40:41948

#o1 #QwQ-32B-Preview

重磅！百度文心一言开源，包含2个多模态大模型，4个大语言模型，最大参数量4240亿！完全免费商用授权！

今天，百度正式宣布开源其最新的旗舰级大模型系列——ERNIE 4.5。ERNIE 4.5系列模型当前包含2个多模态大模型，4个大语言模型及其不同变体的庞大家族，还区分了PyTorch版本和paddlepaddle版本，共23个模型，其核心采用了创新的异构多模态混合专家（MoE）架构，在提升多模态理解能力的同时，实现了文本处理性能的同步增强。每个版本的模型都开源了基座（Base）版本和后训练版本（不带Base）。

2025/06/30 13:44:47945

#ERINE-4.5 #ERINE

DeepSeek V4没有等到，但是DeepSeekAI把DeepSeek V3升级到DeepSeek V3.1了，小幅更新，但核心架构和参数不变

就在几个小时前，DeepSeekAI宣布官方的聊天模型从DeepSeek-V3升级到了DeepSeek-V3.1，上下文拓展至128K。虽然，官方目前没有给出这个模型的详细信息，DataLearnerAI已经搜集到很多信息供大家参考。

2025/08/20 04:15:45945

#DeepSeekAI #DeepSeekV3.1

OpenAI最新动向，Sam不再回归OpenAI，与Greg一起进入微软！OpenAI新任CEO由Emmett Shear接任！

OpenAI的董事会上周五开除Sam Altman，同日其创始人Greg Brockman，这件事引起了轩然大波。周末各方消息显示投资人施压董事会，要求召回Sam。本来大家以为Sam重回OpenAI。但是最新消息，OpenAI找了新的CEO，Sam与Greg等人加入微软成立新的团队。

2023/11/20 16:28:11933

#Greg #OpenAI

OpenAI官网测试GPT-4.5介绍页面，最新Bing搜索泄露GPT-4.5的特性，上下文长度拓展到256K！

尽管GPT-4.5的传闻一直存在，但是没有任何地方透露过相关的消息。而最新的OpenAI官网似乎已经悄悄上架了GPT-4.5-Turbo的信息。尽管目前网页被删除，但是Bing检索保留了相关缓存并可以在Bing Chat中回答。

2024/03/13 01:03:58927

#BingChat #GPT-4.5

Gemini 3 Flash：Google 在 12 月 17 日发布的新一代默认模型

2025 年 12 月 17 日，Google 正式发布了 Gemini 3 Flash 模型。这是 Gemini 3 系列中的一款高性能轻量模型，目前已经在 Gemini App 以及 Google 搜索的 AI Mode 中作为默认模型上线。

2025/12/18 15:04:03927

#Gemini3Flash #Google

Ilya Sutskever访谈深度解读：关于大模型的瓶颈、人类智能的优势、模型泛化不足以及5-20年后超级智能会出现的真正问题

这篇文章基于 Dwarkesh Patel 对 SSI 创始人、前 OpenAI 首席科学家 Ilya Sutskever 的长访谈，系统梳理了他对模型泛化、人类智能结构、持续学习、RL 与预训练局限、超级智能路径、对齐策略，以及 AI 未来经济与治理的整体判断。文章不仅整理了核心观点，也结合具体原文展开解读，呈现 Ilya 如何从“人类为何能泛化”这一根问题出发，重新思考下一代智能系统应当如何构建。

2025/12/03 08:19:14921

#大模型应用 #大模型技术