标签

「AI」相关文章（第2页）

汇总「AI」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#AI

Anthropic发布Claude Haiku 4.5：一个不可忽视的低成本模型，1/3的价格，1.5倍的速度，但是有Claude Sonnet 4的水平！

Anthropic正式发布最新一代入门级模型Claude Haiku 4.5。相较上一代小模型，Haiku 4.5 在编码、推理与“计算机使用/子代理编排”等关键生产力场景上实现逼近甚至局部追平 Sonnet 4，但价格更低、速度更快，定位于“面向规模化落地的高性价比主力”。

2025/10/19 22:15:00862

#Anthropic #Claude

如何让你的Agent更快，支持更多上下文？Anthropic发布Skills：专为AI Agent系统打造的专业领域工具规范，MCP强大的补充，更低的门槛和资源消耗

Anthropic 正式推出全新功能 Claude Skills，旨在让通用 AI 代理（Agent）具备专业领域能力。该功能允许用户通过创建包含 SKILL.md 文件的技能文件夹，为 Claude 注入可执行脚本、模板与资源，实现 Excel 处理、PPT 生成等特定任务的自动化操作。与传统提示词不同，Skills 采用结构化加载与本地沙箱执行机制，兼顾安全性与效率。

2025/10/17 13:12:331,761

#AIAgent #Claude

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:37969

#AIAgent #Gemini2.5ComputerUse

自己制作电影不是梦，视频生成大模型的巨大进步！OpenAI发布第二代视频生成大模型Sora2：物理规律符合率达到88%，可以同步生成音频！物理真实感与声音控制全面突破

就在今日，OpenAI正式推出了 Sora 2 ——其旗舰级视频与音频生成模型。相比2024年2月发布的初代 Sora，本次升级带来了断层级的真实感与显著增强的可控性。它不仅能更好地遵循物理规律生成视频，还首次实现了同步对话与环境音效的生成，并通过全新 iOS 应用“Sora”开放给公众使用。

2025/10/01 15:17:59873

#OpenAI #Sora

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑：智谱类DeepResearch的大模型产品Zread介绍，GitHub仓库解读神器

智谱AI于2025年7月发布了Zread。这款产品能够利用其大模型能力，结合类似Deep Research的Agent技术，对GitHub项目进行深度解读和问答。其价值在于将强大的模型能力通过优秀的工程化设计，变成了一个真正“好用”的工具。它解决的正是那种“代码就在那里，但我就是看不懂”的尴尬，这种体验是单纯聊天机器人无法替代的。

2025/09/27 20:55:06792

#AIAgent #Zread

OpenAI收入大揭秘：2024年收入40亿美金，2030年预计达到2000亿，年均复合增长超90%！ChatGPT占比将逐年下降！

根据TheInformaiton的披露，近期OpenAI更新了他们最新财务预测（截至2025年第三季度）。这份收入预测展示了当前OpenAI的收入情况，并描绘了一幅引人注目的未来图景。与2025年第一季度OpenAI自己的预测相比，新数据不仅上调了收入预期，也揭示了公司因基础设施投入而面临的巨大现金消耗压力。本文将简单解读一下这份数据，包括OpenAI的收入情况，不同产品占比，如ChatGPT的比重等。

2025/09/06 20:21:001,569

#ChatGPT #OpenAI

Moonshot AI发布Kimi K2-Instruct-0905：256K上下文长度加持，全面升级的开放式智能体模型

今日，Moonshot AI正式发布了最新旗舰模型 Kimi K2-Instruct-0905。这是一款基于混合专家架构（MoE）的前沿大语言模型，总参数规模达到 1万亿，激活参数为 320亿，不仅在编码智能上实现了断层式提升，更凭借 256K超长上下文成为当前同类产品中的佼佼者。官方称其在公共基准和真实智能体任务上的表现均有显著突破，已对标并超越部分国际顶尖模型。

2025/09/06 04:23:041,032

#AIAgent #K2

语音大模型正式进入Voice Agent时代！OpenAI发布GPT Realtime模型，可以直接调用接口和工具进行实时语音对话！

就在几个小时前，OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech（S2S）模型，能通过单个模型与 API完成从音频输入到音频输出的全流程，显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径，解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。

2025/08/29 04:27:25754

#GPTRealtime #OpenAI

DeepSeek V4没有等到，但是DeepSeekAI把DeepSeek V3升级到DeepSeek V3.1了，小幅更新，但核心架构和参数不变

就在几个小时前，DeepSeekAI宣布官方的聊天模型从DeepSeek-V3升级到了DeepSeek-V3.1，上下文拓展至128K。虽然，官方目前没有给出这个模型的详细信息，DataLearnerAI已经搜集到很多信息供大家参考。

2025/08/20 04:15:45925

#DeepSeekAI #DeepSeekV3.1

智谱AI发布GLM-4.5V多模态推理模型

智谱AI刚刚开源了新一代视觉-语言模型（Vision-Language Model, VLM）——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air（总参数量1060亿，激活参数量120亿），延续GLM-4.1V-Thinking的技术路线，在42项公开视觉多模态基准测试中，在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景，采用Mixture-of-Experts（MoE）架构，并保持开源。

2025/08/11 23:28:481,006

#GLM-4.5V #开源大模型

Qwen Code介绍和使用：阿里开源的命令行AI编程助手，免费开源，支持最高100万的上下文！

阿里巴巴的 Qwen Code 是一款开源的命令行 AI 工具，旨在提升开发者的编程效率，特别适用于处理大型代码库和复杂的开发任务。 2025年8月9日，阿里宣布提供每天2000次的免费Qwen Code服务，应该是满足大多数开发者的日常需求了。

2025/08/09 08:52:121,404

#Qwen #QwenCode

OpenAI发布GPT-5：这是一个包含实时路由的AI系统，而不仅仅是一个模型

几个小时前，OpenAI发布了全新一代大模型GPT-5系列。本次发布的是一个全新的AI系统，而非一个单独的模型系列。GPT-5背后包含了5个不同的模型系列或者版本，分别是GPT-5-Pro、GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-Chat。

2025/08/08 08:45:13836

#GPT-5 #GPT-5Reasoning

OpenAI Harmony 消息格式技术详解：一种为高级 Agent 设计的精细化消息格式

近日，OpenAI在发布其开源模型gpt-oss-120b和gpt-oss-20b的同时，也推出了一种专为这些模型设计的全新消息格式——Harmony。对于希望在自有解决方案中充分利用这些开源模型的开发者而言，理解Harmony至关重要。本文将以客观的第三方视角，详细解析Harmony格式的设计理念与技术细节。

2025/08/07 17:17:381,084

#OpenAIHarmony消息格式 #大模型技术

OpenAI开源2个全新大模型，比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B，完全免费商用授权

在几个小时前，OpenAI开源了两款名为gpt-oss-120b和gpt-oss-20b的大语言模型。这是自GPT-2以来，OpenAI首次推出开源权重大语言模型，这两个模型的评测效果达到了o4-mini和o3-mini的水平，而且以Apache 2.0协议开源，大家可以自由使用，包括任何形式的商用。

2025/08/06 09:22:22703

#GPT-OSS-120B #GPT-OSS-20B

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:161,137

#AIAgent评测 #TerminalBench

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

几个小时前，OpenAI的研究人员披露，其一款内部实验性的大语言模型，在模拟的国际数学奥林匹克（International Math Olympiad ，IMO）竞赛2025中取得了金牌水平的成绩。这是一个里程碑式的突破，因为IMO被认为是衡量创造性数学推理能力的巅峰，远超以往任何AI基准测试。这项成就并非通过专门针对数学的“窄”方法实现，而是源于通用人工智能研究的根本性突破，尤其是在处理难以验证的任务和长时间推理方面。

2025/07/19 18:22:051,709

#GPT #OpenAI

OpenAI正在测试一个新的o3模型：o3 alpha模型，实测编码和游戏能力十分突出

2025年7月17日，LMArena的大模型Web能力匿名竞技场出现了一个代号为anonymous-chatbot-0717的模型，而根据ChatGPT网页版的抓包显示，这个模型应该是o3家族系列的一员，其模型的api的id为“o3-alpha-responses-2025-07-17”。

2025/07/19 11:14:05558

#ChatGPT #o3alpha

OpenAI发布ChatGPT Agent系统：一个新模型驱动的系统，可以写代码运行代码，使用浏览器订票，写PPT、做excel的全能Agent

OpenAI刚刚发布了一个全新的AI Agent产品，称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑，然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作，从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述，这个Agent系统的目标未来是一个通用的Agent，而这些能力未来将会随着这个产品不定期更新。

2025/07/19 09:03:39552

#AIAgent #AIAgent系统

Vibe Coding再迎重磅玩家，AWS发布AI IDE：Kiro，你可以直接通过自然语言来生成代码，创建网站、游戏或者程序了。

Kiro 是一款AWS刚发布的、具有代理（agentic）能力的集成开发环境（IDE），它的目的是希望通过简化的开发者体验，帮助开发者从概念原型无缝过渡到生产级别的应用。它的核心理念是“规格驱动开发”（spec-driven development），以解决当前 AI 编程从有趣的原型到可靠的生产系统之间存在的鸿沟。

2025/07/15 23:21:36994

#AIIDE #Kiro

Kimi K2为什么开源？基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节：继承于DeepSeek V3架构，只为追求模型智能的上限

上周，MoonshotAI 发布了 Kimi K2，并宣布完全开源、允许商用。发布 24 小时内，社区即完成了 MLX 移植、4-bit 量化等后续工作。外网很多人评价说，Kimi K2是另一个DeepSeek R1时刻。本文尝试以第三方视角，把Kimi开发者公开的技术讨论、社区疑问与公开配置里的数字串成一条完整的技术决策链，解释Kimi K2背后的技术决策以及他们眼中大模型创业企业的方向。

2025/07/14 22:42:551,131

#AIAgent #K2

【辟谣，该数据是预测】重磅！疑似GPT-5评测结果泄露，超过当前所有模型评分，人类最后难题得分56.6，比当前最好模型还要高27%，大幅超过Gemini 2.5 Pro，Grok 4 Heavy等

刚刚，X平台疑似泄露出GPT-5的评测结果，共四项评测结果，均排名第一。根据泄露的信息，GPT-5的评测包含2个不同的版本，分别是基础版本的GPT-5以及带推理模式的GPT-5 Reasoning。各项评测结果均大幅超越当前现有其它模型，都是第一！且都是断档领先！

2025/07/14 11:56:221,003

#GPT-5 #GPT-5Reasoning

Kimi开源K2大模型：全球首个开源可商用的1万亿参数规模大模型，MoE架构，评测结果与DeepSeekV3相当，但模型文件有1TB！

Kimi K2是由Moonshot AI最新推出的旗舰级大模型，首次将开放Agentic Intelligence（自主代理智能）与强大工具调用能力有机整合。它不仅在知识推理、数学、代码等传统“非思维模型”任务上展现出全球领先的能力，还特别针对一系列实际Agentic（自动决策与操作型）任务进行了深度优化。在业内，这代表AI模型正从“只会答题”向“能自主完成复杂任务”转变。K2模型完全开源，可免费商用授权。

2025/07/12 09:36:271,593

#AIAgent #K2

MistralAI发布全新编程大模型：24B开源Devstral Small 1.1在SWE-Bench Verified评分超过旧版DeepSeek R1，编程大模型新的替代

编程领域大模型一直是进展非常快的大模型领域。因为编程能力更强的模型，通常在逻辑思维、工具调用上有更好的表现，在很多领域，特别是Agent领域有很大的应用价值。今天法国人工智能明星公司MistralAI发布了2个全新的编程大模型，分别是Devstral Medium和 Devstral Small 1.1，后者是一个开源的240亿参数的编程大模型。

2025/07/11 20:06:06672

#DevstralMedium #DevstralSmall

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:561,260

#Grok4 #Grok4Code