DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
IOI(International Olympiad in Informatics):从世界顶级算法竞赛到大语言模型的新基准

IOI(International Olympiad in Informatics):从世界顶级算法竞赛到大语言模型的新基准

在衡量大语言模型(LLM)智能水平的众多方法中,除了常见的常识推理、专业领域测评外,还有一个正在兴起且极具挑战性的方向——算法问题求解。在这一领域,几乎没有哪项比赛能比 国际信息学奥林匹克(International Olympiad in Informatics,简称 IOI) 更具权威性与含金量。

2025/08/12 14:48:26318
#大模型数学能力评测#大模型评测
Anthropic发布了Claude Opus 4.1:这是一个Claude Opus 4的小幅升级版本,价格和技术参数不变,性能略有提升

Anthropic发布了Claude Opus 4.1:这是一个Claude Opus 4的小幅升级版本,价格和技术参数不变,性能略有提升

Anthropic 在 Opus 4 发布不到三个月后推出 Claude Opus 4.1,宣称“可直接替换”旧版模型。更新聚焦真实世界编码、长链路代理(agentic)任务和细粒度推理,同时保持相同 API 名称结构和计费档位,方便现有应用平滑迁移。

2025/08/07 23:37:36309
#ClaudeOpus
OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!

OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!

OpenAI 于 2025 年 11 月正式发布 GPT-5 系列的阶段性更新版本 —— GPT-5.1。这一更新并非针对模型架构的全面重做,而是围绕“对话体验、一致性、任务适配性”进行的系统化优化。在 GPT-5 推出后,业界对其不稳定回复、语气波动、任务深度控制不足等表现提出了不少批评,因此本次更新可视为 OpenAI 对这些问题的集中调整。

2025/11/13 16:16:57301
#GPT-5.1#OpenAI
大模型能不能写 PPT?AI 办公如何真正落地?以办公小浣熊为例,看一种更自然的大模型办公方式正在出现

大模型能不能写 PPT?AI 办公如何真正落地?以办公小浣熊为例,看一种更自然的大模型办公方式正在出现

AI 能不能替我做报告”几乎成了办公室里出现频率最高的疑问之一。模型能力的提升有目共睹,API 的边界也在持续扩张,但回到日常,那些真正让人感到疲惫的依旧是最具体的任务:一份复盘写到深夜,一个 PPT 改了十几版,一张 Excel 来回分析到眼花。它们看似普通,却占据了知识工作中惊人比例的时间。本文主要看一下办公小浣熊这个颇具代表性的大模型应用落地思路。

2025/11/28 10:55:12278
#大模型办公#大模型应用
在 API 和 ChatGPT 之间迷路?GPT-5.1、GPT-5.1-Chat、GPT-5.1 Instant 的真正区别解释(DataLearnerAI)

在 API 和 ChatGPT 之间迷路?GPT-5.1、GPT-5.1-Chat、GPT-5.1 Instant 的真正区别解释(DataLearnerAI)

2025/11/15 15:20:47256
#<span class='blog_tag'><a href='blog_list#tag
PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统,用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务,计算代理的任务完成成功率,同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示,目前包含 50 个模型的 403 次运行记录,最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub(pinchbench/skill 仓库),任何开发者均可本地复现或添加

2026/03/18 17:00:1328
#ClawBench#PinchBench
上一页
1...3940
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据!
  • MetaAI官宣开源编程大模型CodeLLaMA!基于LLaMA2微调!超越OpenAI的Codex,最高支持10万tokens输入!
  • HuggingFace宣布在transformers库中引入首个RNN模型:RWKV,一个结合了RNN与Transformer双重优点的模型
  • 大模型领域最著名开源模型小羊驼Vicuna升级!Vicuna发布1.5版本,可以免费商用了!最高支持16K上下文!
  • 缺少有标注的数据集吗?福音来了——HuggingFace发布few-shot神器SetFit
  • ChatGPT颠覆更新!即将发布的ChatGPT新版本带来巨变,新界面和可以自定义GPT-4功能:可以对接私有数据与私有接口的个性化ChatGPT即将到来!
  • 贝叶斯统计中的一些基本的概念和方法介绍
  • IFBench:大模型指令跟随能力评测基准详解