DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客/
  3. 标签:A
标签

「A」相关文章

汇总「A」相关的原创 AI 技术文章与大模型实践笔记,持续更新。

标签:#A
阿里发布第二代图像大模型:Qwen-Image-2.0,融合文本生成图片、图片编辑为一体全球目前排名第三!中文渲染很棒!但不开源~

阿里发布第二代图像大模型:Qwen-Image-2.0,融合文本生成图片、图片编辑为一体全球目前排名第三!中文渲染很棒!但不开源~

就在刚刚,阿里宣布发布Qwen-Image-2.O模型,该模型是Qwen Image系列的最新版本,这个模型综合了此前的文本生成图片和图片编辑的能力,在文本渲染、生成PPT图片方面大幅提升。不过相比较之前的Qwen Image系列,该版本的模型并没有开源,目前在官网可以免费使用。

2026/02/10 17:48:25135
#Qwen#Qwen-Image-2
GDPval-AA:大模型在真实世界任务中的“经济价值”评测基准

GDPval-AA:大模型在真实世界任务中的“经济价值”评测基准

OpenAI在2025年9月推出的GDPval基准,将焦点转向“具有经济价值的真实任务”,而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA,进一步引入了agentic(代理)能力评估和ELO排行榜,成为当前最受关注的“实用性”评测基准之一。

2026/02/06 08:34:5893
#GDPval-AA#大模型评测基准
OpenAI发布Frontier:一个企业级的Agent构建平台,把 AI 变成企业里的“数字同事”,那么OpenAI Frontier能做什么?

OpenAI发布Frontier:一个企业级的Agent构建平台,把 AI 变成企业里的“数字同事”,那么OpenAI Frontier能做什么?

OpenAI 发布了一个全新的帮助企业构建AI Agent的平台:OpenAI Frontier。这个平台不再是一个强大的模型或者单体应用,而是一种“基础设施能力”,是旨在改变企业如何使用 AI 的平台。

2026/02/05 23:54:23163
#Frontier#OpenAI
OpenAI发布桌面版本的编程助手:Codex app,图形化界面简洁美观,但目前仅支持mac os,用户可以限时免费使用Codex一个月

OpenAI发布桌面版本的编程助手:Codex app,图形化界面简洁美观,但目前仅支持mac os,用户可以限时免费使用Codex一个月

OpenAI 刚刚(2026年2月2日)正式推出了 Codex App (macOS 版)。这款产品被定位为“智能体指挥中心”(A Command Center for Agents),标志着 Codex 从单纯的代码生成工具演进为能够独立执行复杂、长周期任务的开发协作平台。

2026/02/03 08:40:26388
#Codex#Codexapp
阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型,但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多,最高推理速度可以达到350tokens/s!

阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型,但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多,最高推理速度可以达到350tokens/s!

Stepfun AI(阶跃星辰)正式发布了其最新开源基础模型Step-3.5-Flash。这款模型以“快速、锐利、可靠的agentic智能”为核心设计,采用稀疏混合专家(Sparse MoE)架构,总参数量196B,但每token仅激活11B参数,实现高效推理的同时保持前沿级性能。它支持256K超长上下文、多token并行预测(MTP-3),推理速度可达100-300 token/s,甚至在编码任务中峰值350 token/s。

2026/02/03 08:05:50190
#Step-3.5-Flash
Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集

Moltbook 是什么?一个专为 AI Agent 或者说是 OpenClaw(前身为 Clawdbot 或 Moltbot)设计的社交网络,以及最有趣的讨论案例收集

Moltbook 是一个创新的社交网络平台,专为 AI Agent 设计,在这里它们可以分享内容、参与讨论,并进行投票和点赞活动。人类用户仅限于观察者角色,无法直接互动。这个平台类似于 Reddit 的结构,允许 AI Agent 创建子社区(称为 submolt)、发布帖子、评论,并通过 API 接口进行操作,而不是视觉图形界面。

2026/01/31 16:36:16583
#AIAgent#Clawdbot
AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

AI编码领域的转变:Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流,带来巨大效率提升,但可能引发低质代码泛滥(slopacolypse)。Anthropic的Boris Cherny以Claude Code团队实践回应,展示近100% AI生成代码、通用工程师招聘策略,以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:14181
#AIAgent#AndrejKarpathy
看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验,Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题,并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:43267
#AIAgent#AndrejKarpathy
Clawdbot到底是啥?能做什么?可以替代Claude Cowork吗?我花了 40 小时深扒 Clawdbot:全是干货,包括那些他们没告诉你的真相

Clawdbot到底是啥?能做什么?可以替代Claude Cowork吗?我花了 40 小时深扒 Clawdbot:全是干货,包括那些他们没告诉你的真相

最近这几天,如果你的 X (Twitter) 首页被 Clawdbot 刷屏了,不用惊讶,主要是太火了。但是这个软件的使用有一定门槛,而且争议比较大。X上有一位博主分享了他对这个东西的看法和使用经验,挺详细的,对于想了解Clawdbot是啥的,这个文章不错。大家看也可以从这个文章看到Clawdbot能做什么,和Cowork对比有啥优点和缺点

2026/01/26 13:21:321,154
#Clawdbot#Cowork
ClawdBot:最新火爆网络的AI的桌面助手简介

ClawdBot:最新火爆网络的AI的桌面助手简介

ClawdBot 是一款开源AI代理工具,旨在帮助用户在本地设备上处理各种任务,在科技社区中迅速获得关注。它于2025年底由开发者Peter Steinberger(@steipete)推出,基于Anthropic的Claude模型,名称结合了“Claw”(龙虾钳子)和“Claude”,并以龙虾作为吉祥物,象征其适应性和本地运行特性。该工具强调本地优先的设计,用户可以完全控制数据和过程,避免对云服务的依赖。

2026/01/25 23:03:49484
#AI助手#ClawdBot
知名开源框架MetaGPT升级为Atoms:专注解决大模型时代的Vibe Coding产品如何落地,五分钟想好Idea,五分钟生成App,五分钟接入支付,五分钟部署产品

知名开源框架MetaGPT升级为Atoms:专注解决大模型时代的Vibe Coding产品如何落地,五分钟想好Idea,五分钟生成App,五分钟接入支付,五分钟部署产品

2026 年 1 月初,原名 MetaGPT 的 AI 开发框架完成了一次重大升级,将其核心产品 MGX 正式更名为 Atoms。这一消息由 DeepWisdom 团队在 X(原 Twitter)等平台发布,标志着该项目从单纯的“AI 编程助手”正式转向“AI 构建真实生意”的全新定位。

2026/01/25 22:51:18342
#Atoms#MetaGPT
Cursor 疯狂实验:用 GPT-5.2 花了一个星期在 Cursor 中开发了一个300万行代码的浏览器以及Claude Opus与GPT-5.2、GPT-5.2-Codex模型在Vibe Coding方面有什么差异

Cursor 疯狂实验:用 GPT-5.2 花了一个星期在 Cursor 中开发了一个300万行代码的浏览器以及Claude Opus与GPT-5.2、GPT-5.2-Codex模型在Vibe Coding方面有什么差异

就在大家还在争论 AI 编程上限的时候,Cursor 团队发布了一份非常值得大家关注的内部测试报告,展示了当我们将 Agent 的规模和运行时间推向极致时,会发生什么。这不仅仅是简单的代码生成,而是让 AI 像人类团队一样协作,构建百万行级别的项目。这项实验为我们揭示了 AI 在编码领域的潜力与局限,值得每位开发者关注。

2026/01/16 08:26:10434
#AIIDE#Cursor
Anthropic 发布 Cowork:从 Claude Code 的发展历史看 Cowork 的能力与定位,它可能成为普通人的下一代桌面 AI 助手吗?

Anthropic 发布 Cowork:从 Claude Code 的发展历史看 Cowork 的能力与定位,它可能成为普通人的下一代桌面 AI 助手吗?

Anthropic 于 2026 年 1 月 12 日发布了 Cowork,这是一款基于 Claude 模型的新型 AI Agent工具,作为 Claude 桌面应用的 macOS 版本研究预览版推出。目前仅限 Claude Max 订阅者使用,未来计划扩展到 Windows 和跨设备同步。Cowork 继承了 Claude Code 的核心代理能力,但更注重非开发者用户的日常生产力任务,例如访问用户指定的文件夹,读取、编辑或创建文件,帮助整理杂乱下载、从截图生成电子表格,或从笔记起草报告。

2026/01/13 22:46:49350
#Anthropic#ClaudeCode
重磅!阿里开源2个多模态向量大模型和重排序大模型:Qwen3-VL-Embedding和Qwen3-VL-Reranker,图片和视频也可以用来做RAG了!

重磅!阿里开源2个多模态向量大模型和重排序大模型:Qwen3-VL-Embedding和Qwen3-VL-Reranker,图片和视频也可以用来做RAG了!

就在刚刚,阿里巴巴正式免费开源了两款全新的多模态模型——Qwen3-VL-Embedding(多模态向量模型)和 Qwen3-VL-Reranker(多模态重排序模型),首次在开源体系中系统性补齐了多模态 RAG 在“向量化检索 + 精排重排”两个关键环节上的能力空白。这两个模型是基于强大的Qwen3-VL基础模型构建的专用多模态向量与重排(Reranking)模型。

2026/01/08 23:07:09883
#Qwen3#Qwen3-VL-Embedding
大模型工具使用的三次进化:从 Function Calling 到程序化编排

大模型工具使用的三次进化:从 Function Calling 到程序化编排

本文系统梳理了大模型工具使用(Tool Use)的三个演进阶段:循环式工具选择(Function Calling)、计划驱动执行(Plan-then-Execute)和程序化工具编排(Programmatic Tool Calling)。从 OpenAI Function Calling 的单次调用模式,到支持并行调度的计划-执行范式,再到最新的代码驱动编排方式,工具使用正在从"逐步决策"走向"计划驱动、代码驱动"。

2026/01/08 22:08:57453
#AIAgent#FunctionCalling
为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型?长时运行Agent解析(Long-Running Agents)

AI Agent 的一个关键趋势正在浮现:从“快速回答问题”转向“长时间稳定执行复杂任务”。本文系统梳理了为什么 Anthropic、OpenAI 等企业开始强调“长时运行 Agent”,并解释其真实含义并非模型一直思考,而是通过作业化、异步执行、可恢复运行和动态上下文管理,实现跨会话完成复杂目标。文章深入对比了长时 Agent 与传统脚本化 LLM Loop 的本质差异,分析其在自治能力、上下文工程、耐久执行与治理上的核心价值,并总结构建长时运行 AI Agent 所需的关键技术等。

2026/01/04 23:01:19508
#AIAgent#Long-RunningAgents
Claude Code如何更加高效使用?Claude Code创始人分享的13条Claude Code实践经验总结

Claude Code如何更加高效使用?Claude Code创始人分享的13条Claude Code实践经验总结

今天,Claude Code 的创建者 Boris 发了一条很长的 thread,第一次比较完整地讲了他自己是怎么使用 Claude Code 的。共13条总结,我们这里总结一下,供大家参考。

2026/01/03 23:37:50545
#ClaudeCode#VibeCoding
在大模型时代,AI 产品为什么更难复用?AI Agent产品应该如何开发?来自 Manus 的3个工程实践经验

在大模型时代,AI 产品为什么更难复用?AI Agent产品应该如何开发?来自 Manus 的3个工程实践经验

本文基于 Manus 一线工程成员的真实实践,总结并分析了 大模型时代 AI 产品在工程与复用层面发生的关键变化。文章并不关注模型参数或算法细节,而是聚焦于真实生产环境中的工程问题:功能交付的责任边界如何变化、为何原型验证比完整规划更重要,以及在 Agent 系统中个人角色与系统边界如何被重新定义。这些经验揭示了一个趋势——在大模型具备“执行能力”之后,AI 产品的可用性越来越依赖工程体系本身,而非模型能力本身。本文适合关注 AI 工程实践、Agent 架构以及大模型落地问题的技术读者参考。

2025/12/28 20:44:13355
#AIAgent经验#AI产品
Context Arena:长上下文大模型评测基准介绍

Context Arena:长上下文大模型评测基准介绍

Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集,提供交互式排行榜,用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现,避免单纯依赖训练数据记忆。

2025/12/27 10:42:00499
#ContextArena#大模型评测
Gemini 3 Flash:Google 在 12 月 17 日发布的新一代默认模型

Gemini 3 Flash:Google 在 12 月 17 日发布的新一代默认模型

2025 年 12 月 17 日,Google 正式发布了 Gemini 3 Flash 模型。 这是 Gemini 3 系列中的一款高性能轻量模型,目前已经在 Gemini App 以及 Google 搜索的 AI Mode 中作为默认模型上线。

2025/12/18 15:04:03480
#Gemini3Flash#Google
Minion Skills: Claude Skills的开源实现

Minion Skills: Claude Skills的开源实现

本文介绍了 Claude 最近推出的 Skills 系统,以及作者在 Minion 框架中实现的一个完全开源的版本。Skills 的核心思路是让 AI Agent 在需要时再加载对应的专业能力,而不是一开始就把所有工具和知识都塞进上下文,从而缓解上下文窗口有限、成本高、响应慢的问题。

2025/12/17 22:06:31701
#Agent技巧#ClaudeSkills
智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试

智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试

就在刚才,智谱推出了两个语音识别模型:闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同,这次聚焦的是语音转文字(ASR)任务,尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

2025/12/10 11:10:41709
#ASR#GLM-ASR
复杂问题推理能力大幅提升,DeepSeekAI发布DeepSeek V3.2正式版本以及一个评测结果可以媲美Gemini 3.0 Pro的将开源模型推到极限性能的DeepSeek-V3.2-Speciale模型

复杂问题推理能力大幅提升,DeepSeekAI发布DeepSeek V3.2正式版本以及一个评测结果可以媲美Gemini 3.0 Pro的将开源模型推到极限性能的DeepSeek-V3.2-Speciale模型

几个小时前,DeepSeek 突然发布了两款全新的推理模型:DeepSeek V3.2 正式版与DeepSeek V3.2-Speciale。前者已经全面替换官方网页、App 与 API 成为新的默认模型;后者则以“临时研究 API”的方式开放,被定位为极限推理版本。

2025/12/01 23:38:17375
#DeepSeekV3.2#DeepSeekV3.2-Speciale
Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作

Anthropic 最新 Agent 工程方案:使用双 Agent 架构让 AI 实现真正的长时自主工作

就在昨天,Anthropic 发布了一套非常重要的工程方案,专门针对这些挑战而设计:基于“Initializer Agent + Coding Agent”的双 Agent 架构。

2025/11/27 20:34:30970
#AIAgent#大模型应用
上一页
12...87
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • 谷歌发布Genie 3:一个可以生成720P开启实时交互式虚拟世界生成新纪元
  • 层次狄利克雷过程简介(Hierarchical Dirichlet Process, HDP)
  • SCI、SCIE、SSCI和EI期刊的含义与区别
  • 重回第一!OpenAI升级GPT-4-Turbo到2024-04-09版本(gpt-4-turbo-2024-04-09),GPT-4推理和数学能力大幅提高,基准测试最高有接近20%的提升!
  • ChatGPT的强有力挑战者HuggingChat发布——速度很快,不过水平略差~~
  • 122
  • 是否需要使用NumPy代替Pandas处理数据以提高性能?
计算广告入门基础