DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
IOI(International Olympiad in Informatics):从世界顶级算法竞赛到大语言模型的新基准

IOI(International Olympiad in Informatics):从世界顶级算法竞赛到大语言模型的新基准

在衡量大语言模型(LLM)智能水平的众多方法中,除了常见的常识推理、专业领域测评外,还有一个正在兴起且极具挑战性的方向——算法问题求解。在这一领域,几乎没有哪项比赛能比 国际信息学奥林匹克(International Olympiad in Informatics,简称 IOI) 更具权威性与含金量。

2025/08/12 14:48:26318
#大模型数学能力评测#大模型评测
Anthropic发布了Claude Opus 4.1:这是一个Claude Opus 4的小幅升级版本,价格和技术参数不变,性能略有提升

Anthropic发布了Claude Opus 4.1:这是一个Claude Opus 4的小幅升级版本,价格和技术参数不变,性能略有提升

Anthropic 在 Opus 4 发布不到三个月后推出 Claude Opus 4.1,宣称“可直接替换”旧版模型。更新聚焦真实世界编码、长链路代理(agentic)任务和细粒度推理,同时保持相同 API 名称结构和计费档位,方便现有应用平滑迁移。

2025/08/07 23:37:36309
#ClaudeOpus
OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!

OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!

OpenAI 于 2025 年 11 月正式发布 GPT-5 系列的阶段性更新版本 —— GPT-5.1。这一更新并非针对模型架构的全面重做,而是围绕“对话体验、一致性、任务适配性”进行的系统化优化。在 GPT-5 推出后,业界对其不稳定回复、语气波动、任务深度控制不足等表现提出了不少批评,因此本次更新可视为 OpenAI 对这些问题的集中调整。

2025/11/13 16:16:57301
#GPT-5.1#OpenAI
大模型能不能写 PPT?AI 办公如何真正落地?以办公小浣熊为例,看一种更自然的大模型办公方式正在出现

大模型能不能写 PPT?AI 办公如何真正落地?以办公小浣熊为例,看一种更自然的大模型办公方式正在出现

AI 能不能替我做报告”几乎成了办公室里出现频率最高的疑问之一。模型能力的提升有目共睹,API 的边界也在持续扩张,但回到日常,那些真正让人感到疲惫的依旧是最具体的任务:一份复盘写到深夜,一个 PPT 改了十几版,一张 Excel 来回分析到眼花。它们看似普通,却占据了知识工作中惊人比例的时间。本文主要看一下办公小浣熊这个颇具代表性的大模型应用落地思路。

2025/11/28 10:55:12278
#大模型办公#大模型应用
在 API 和 ChatGPT 之间迷路?GPT-5.1、GPT-5.1-Chat、GPT-5.1 Instant 的真正区别解释(DataLearnerAI)

在 API 和 ChatGPT 之间迷路?GPT-5.1、GPT-5.1-Chat、GPT-5.1 Instant 的真正区别解释(DataLearnerAI)

2025/11/15 15:20:47256
#<span class='blog_tag'><a href='blog_list#tag
PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统,用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务,计算代理的任务完成成功率,同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示,目前包含 50 个模型的 403 次运行记录,最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub(pinchbench/skill 仓库),任何开发者均可本地复现或添加

2026/03/18 17:00:1328
#ClawBench#PinchBench
Previous
1...3940
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • 一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~
  • 腾讯发布全新推理大模型Hunyuan-T1:mamba与transformer结合的新架构,与业界模型对比评测结果不错,但是不开源
  • 大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!
  • 深度学习的反向传播手动推导
  • 类选择器
  • OpenAI第二代DALL·E发布,可以使用自然语言创造和编辑图片的模型
  • 为什么GitHub要求文件的末尾必须有换行符?
重磅好消息!推特开源自家的推荐系统算法!