DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026 是基于美国数学邀请赛(American Invitational Mathematics Examination)2026 年问题的评测基准,用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题,覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

2026/02/13 15:05:25354
#AIME#AIME2026
月之暗面发布Kimi Claw:一个在云端拥有40G空间的24×7运行的OpenClaw,基于Kimi模型驱动

月之暗面发布Kimi Claw:一个在云端拥有40G空间的24×7运行的OpenClaw,基于Kimi模型驱动

就在刚才,Moonshot AI(Kimi 团队)推出了 Kimi Claw(目前为 Beta 版)。这项服务让普通用户无需本地安装或维护服务器,就能快速获得一个类似 OpenClaw 的云端 AI 助手,随时在线、具备长期记忆和实际执行能力。

2026/02/15 22:53:173,643
#AI助手#KimiClaw
xAI发布Grok 4.2 Beta版本:一个由四个专家组成的专业团队,实测效果目前还可以

xAI发布Grok 4.2 Beta版本:一个由四个专家组成的专业团队,实测效果目前还可以

就在刚才,Grok官网出现了Grok 4.2 Beta版本,并且已经可以直接使用。即使是免费用户,目前看也可以使用至少8次的提问。

2026/02/17 21:27:58588
#Grok4.2#GrokTeams
探索 OSWorld Verified:大模型AI Agent在真实计算机任务中的评估框架

探索 OSWorld Verified:大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务,比如操作文件或使用软件。OSWorld Verified 是它的改进版,通过修复问题和提升运行方式,提供更准确的测试结果。它支持不同操作系统,如 Ubuntu、Windows 和 macOS,并允许 AI 通过互动学习来完成任务。

2026/02/18 16:21:59327
#OSWorld#OSWorld-Verified
MiniMax M2.7 发布:模型开始帮自己训练自己

MiniMax M2.7 发布:模型开始帮自己训练自己

MiniMaxAI 刚刚发布了全新的 M2.7 模型,官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型,也就是说模型在训练过程中进行了自我分析并参与迭代。目前 M2.7 已经可以在官网使用,接口价格不变。不过该模型当前并未宣布开源,还不确定未来情况。

2026/03/18 16:23:31364
#MiniMaxAI#MiniMaxM2.7
PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench:OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统,用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务,计算代理的任务完成成功率,同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示,目前包含 50 个模型的 403 次运行记录,最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub(pinchbench/skill 仓库),任何开发者均可本地复现或添加

2026/03/18 17:00:1329
#ClawBench#PinchBench
上一页
1...3940
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据!
  • MetaAI官宣开源编程大模型CodeLLaMA!基于LLaMA2微调!超越OpenAI的Codex,最高支持10万tokens输入!
  • HuggingFace宣布在transformers库中引入首个RNN模型:RWKV,一个结合了RNN与Transformer双重优点的模型
  • 大模型领域最著名开源模型小羊驼Vicuna升级!Vicuna发布1.5版本,可以免费商用了!最高支持16K上下文!
  • 缺少有标注的数据集吗?福音来了——HuggingFace发布few-shot神器SetFit
  • ChatGPT颠覆更新!即将发布的ChatGPT新版本带来巨变,新界面和可以自定义GPT-4功能:可以对接私有数据与私有接口的个性化ChatGPT即将到来!
  • 贝叶斯统计中的一些基本的概念和方法介绍
  • IFBench:大模型指令跟随能力评测基准详解