DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型,但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多,最高推理速度可以达到350tokens/s!

阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型,但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多,最高推理速度可以达到350tokens/s!

Stepfun AI(阶跃星辰)正式发布了其最新开源基础模型Step-3.5-Flash。这款模型以“快速、锐利、可靠的agentic智能”为核心设计,采用稀疏混合专家(Sparse MoE)架构,总参数量196B,但每token仅激活11B参数,实现高效推理的同时保持前沿级性能。它支持256K超长上下文、多token并行预测(MTP-3),推理速度可达100-300 token/s,甚至在编码任务中峰值350 token/s。

2026/05/03 14:45:091,192
#Step-3.5-Flash
大模型追踪利器!斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

大模型追踪利器!斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

斯坦福大学发布的基础大模型追踪图谱Ecosystem Graphs,用图谱的方式给大家呈现了模型之间的联系,让人非常清楚明白追踪不同模型之间的关系。

2023/04/24 22:46:281,183
#大模型
大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!

大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!

谷歌终于在2025年11月18日发布了新一代Gemini 3模型:Gemini 3.0 Pro。该模型目前在各个评测排行榜中都获得了非常优秀的结果,几乎是领先了所有的模型。而根据此前大家的匿名投票评分和早期测试,该模型的文本生成、编程、SVG生成等方面都非常优秀。谷歌官方强调,Gemini 3.0 Pro不仅在推理能力上达到了新的业界巅峰,更在理解深度、细微差别以及“思考”能力上实现了质的飞跃。

2025/11/19 09:24:471,183
#Gemini#Gemini3Pro
ChatGPT内置隐藏debug功能:支持下载原始对话、可视化对话分支等

ChatGPT内置隐藏debug功能:支持下载原始对话、可视化对话分支等

AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性,可以提高ChatGPT对话的问题调试功能。这个特性包含非常多的功能。同时,最新的截图显示ChatGPT Team版本计划可能延迟但没有取消。

2023/12/06 07:43:391,178
#ChatGPT#ChatGPTTeam计划
大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU(大规模多学科多模态理解和推理基准)是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

2025/02/21 20:51:011,178
#MMMU#大模型多模态评测
Gemini CLI: Google发布的开源AI智能体,将Gemini 2.5 Pro直接带入你的终端,每天可以免费使用1000次Gemini 2.5 Pro!

Gemini CLI: Google发布的开源AI智能体,将Gemini 2.5 Pro直接带入你的终端,每天可以免费使用1000次Gemini 2.5 Pro!

今天,Google为全球开发者社区带来了一款激动人心的新工具——**Gemini CLI**。这是一款免费、开源的AI智能体,它将Google当前最强大的模型Gemini 2.5 Pro的能力,直接集成到了开发者最熟悉的命令行界面(CLI)中。对于那些视终端为“家”的开发者来说,这无疑是一个重大的升级。它不仅擅长编码,更是一个可以处理内容生成、问题解决、深度研究和任务管理的多功能本地实用工具。它的发布,旨在为个人开发者提供前所未有的便捷AI体验,非常强大!

2025/06/26 08:46:371,177
#ClaudeCode#GeminiCLI
彭博社发布金融领域的ChatGPT模型——BloombergGPT

彭博社发布金融领域的ChatGPT模型——BloombergGPT

彭博社今天发布了一份研究论文,详细介绍了BloombergGPT的开发,这是一个新的大规模生成式人工智能(AI)模型。这个大型语言模型(LLM)经过专门的金融数据训练,支持金融业内的多种自然语言处理(NLP)任务。

2023/04/24 22:45:141,165
#BloombergGPT
开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

今天,Stability宣布开源StableLM计划,这是一个正在开发过程的大语言模型,但是它是开源可商用的模型。本文将对该模型做简单的介绍!

2023/04/24 22:35:451,164
#StabilityAI#StableLM
看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程(Claude Code这样的工具):AI Agent正在重塑编码工作流,2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验,Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题,并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:431,162
#AIAgent#AndrejKarpathy
AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!

AIME 2025满分,xAI正式发布Grok模型,其中Grok 4 Heavy评测超越当前所有大模型,美国数学竞赛满分!一年3000美元订阅费!

马斯克旗下的xAI公司正式发布Grok4大模型,包含Grok 4和Grok4 Heavy版本,其中Grok4 Heavy是一个Agent系统,在AIME2025(美国的数学邀请赛)得分满分,超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:561,161
#Grok4#Grok4Code
常用的SQL语句总结

常用的SQL语句总结

平时很多时候需要用到SQL,一些常见常用的SQL语句总结,后面可以拷贝使用

2022/04/15 23:15:491,145
#SQL#编程
OpenAI发布企业使用的ChatGPT:没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能,但是暂不支持私有化部署

OpenAI发布企业使用的ChatGPT:没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能,但是暂不支持私有化部署

OpenAI发布了ChatGPT的企业版,这是一个专为企业设计的聊天机器人。这个版本不仅提供了企业级的安全和隐私保护,还具有更高的处理速度和更多的自定义选项。相比较个人版的ChatGPT,企业版主要是提升了性能、强调了安全等。

2023/08/29 09:16:091,140
#ChatGPT#OpenAI
LLaMA2 7B一样的性能但是由15倍的推理速度!Deci开源DeciLM-6B和DeciLM-6B-Instruct,发布一天上榜HuggingFace Trending

LLaMA2 7B一样的性能但是由15倍的推理速度!Deci开源DeciLM-6B和DeciLM-6B-Instruct,发布一天上榜HuggingFace Trending

随着大型语言模型(LLMs)的不断发展,它们在训练和推理方面的计算需求已经呈指数级增长。这一趋势不仅带来了高昂的成本和能源消耗,还引入了模型部署和可伸缩性方面的障碍。为此,DeciLM开源了2个全新的DeciLM-6B和DeciLM-6B-Instruct大模型,参数比LLaMA2 7B略低,性能相当,但是推理速度却超过LLaMA2 7B的15倍。

2023/09/16 16:50:121,139
#DeciLM-6B#DeciLM-6B-Instruct
OpenAI隐藏的一个ChatGPT新功能:在对话框中@任意GPTs,获得回答!一个巨大的由各种GPT组成的聊天世界即将到来

OpenAI隐藏的一个ChatGPT新功能:在对话框中@任意GPTs,获得回答!一个巨大的由各种GPT组成的聊天世界即将到来

在最新的ChatGPT的前端代码中,有网友发现了一个OpenAI隐藏的或者正在测试的功能,即在ChatGPT的对话中可以@ 任意GPTs商店中公开的GPTs,然后由这个GPTs为用户当前的对话进行回复,这个功能不需要用户离开当前对话页面。这意味着在一次对话中,我们可以与几百万个不同的GPTs同时协作聊天,就像一个巨大的聊天群,里面有无数个各种各样的GPT一起为你解决问题。

2024/01/26 20:29:021,137
#ChatGPT#ChatGPT新功能
如何评估大模型的创意写作能力?Creative Writing v3 评测基准介绍

如何评估大模型的创意写作能力?Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型(LLM)创意写作能力的评测基准。该基准采用混合评分系统,旨在更精确地区分不同模型,特别是顶尖模型之间的性能差异。

2025/07/15 17:33:321,135
#CreativeWriting#大模型评测
智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试

智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试

就在刚才,智谱推出了两个语音识别模型:闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同,这次聚焦的是语音转文字(ASR)任务,尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

2025/12/10 11:10:411,135
#ASR#GLM-ASR
MistralAI发布了Mixtral  8×7B MoE模型的论文,更详细的参数和对比结果~

MistralAI发布了Mixtral 8×7B MoE模型的论文,更详细的参数和对比结果~

在人工智能快速发展的今天,创新型模型如Mixtral 8x7B的出现,不仅推动了技术的进步,还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts(SMoE)架构的模型,不仅在技术层面上实现了创新,还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布,但是MistralAI今天才上传了这个模型的论文,我们可以看到更详细的信息。

2024/01/09 12:39:171,126
#MistralAI#Mixtral
Claude Code 的独特体验:Claude Code 为什么这么好用?从设计细节看下一代 LLM Agent 的范式

Claude Code 的独特体验:Claude Code 为什么这么好用?从设计细节看下一代 LLM Agent 的范式

近年来,AI 编码助手与 Agent 框架层出不穷,从 Github Copilot 到 Cursor,再到各种基于 LangChain 的多代理方案。然而,真正让开发者普遍感受到“顺手”与“愉快”的,却是 Claude Code(简称 CC)。它的特别之处,并不在于引入了复杂的新架构,而恰恰在于其极简而精心打磨的设计选择。 Claude模型本身的强大毋庸置疑,但是即使是相同的模型,Claude Code体验也比其它的Agent似乎体验更好。本文基于2025年8月21日vivek公开发布的一篇英文博客,

2025/08/24 23:39:171,126
#Claude#ClaudeCode
重磅!Scikit-learn与Hugging Face强强联手了!

重磅!Scikit-learn与Hugging Face强强联手了!

Hugging Face一直在努力支持深度学习,但是,这只是深度学习的一部分。传统统计机器学习领域里面最重要的工具Scikit-learn如今终于和深度学习的开源标杆工具Hugging Face联手。

2022/10/18 23:36:351,119
#HuggingFace#sklearn
谷歌发布Genie 3:一个可以生成720P开启实时交互式虚拟世界生成新纪元

谷歌发布Genie 3:一个可以生成720P开启实时交互式虚拟世界生成新纪元

谷歌DeepMind发布了一个全新的大模型——Genie 3,这是一个能够根据文本描述生成多样化、可实时交互虚拟世界的通用世界模型。目前,Genie3可以生成几分钟的720P的视频,且每秒24帧左右。用户也可以在生成的视频中实时交互控制。从谷歌官方的视频看,这个Genie 3模型生成的视频和游戏世界的质量很高,非常令人心动!

2025/08/05 23:17:111,116
#Genie3#Google
Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!

Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!

阿里发布了全新的语音识别大模型Qwen3-ASR-Flash,该模型是Qwen3系列模型中首个语音识别大模型,中英文语音识别错误率低于GPT-4o-transcribe和Gemini 2.5 Pro。不过,该模型目前仅通过API提供,不开源!

2025/09/09 03:31:421,114
#ASR#Qwen3
MiniMax M2.7 发布:模型开始帮自己训练自己

MiniMax M2.7 发布:模型开始帮自己训练自己

MiniMaxAI 刚刚发布了全新的 M2.7 模型,官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型,也就是说模型在训练过程中进行了自我分析并参与迭代。目前 M2.7 已经可以在官网使用,接口价格不变。不过该模型当前并未宣布开源,还不确定未来情况。

2026/04/06 11:26:321,112
#MiniMaxAI#MiniMaxM2.7
OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)

OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)

今天,OpenAI官方宣布了一个非常有意思的论文,他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义,试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:441,109
#OpenAI#可解释性
Anthropic发布Claude4,全球最强编程大模型,大幅提升AI Agent系统所需的各项能力,最长可以7小时连续工作,持续工作、工具使用、记忆使用方面大幅提升

Anthropic发布Claude4,全球最强编程大模型,大幅提升AI Agent系统所需的各项能力,最长可以7小时连续工作,持续工作、工具使用、记忆使用方面大幅提升

2025年5月23日,Anthropic发布了新一代大语言模型Claude 4系列,包括Claude Opus 4和Claude Sonnet 4两个版本。Anthropic的官方博客强调Claude Opus 4是当前全球最强的编程大模型,与传统聚焦于文本生成和知识问答的模型不同,Claude 4明确定位为任务执行引擎和AI Agent系统的核心组件。这次发布不仅仅是性能参数的提升,更代表了Anthropic认为AI模型从"对话助手"向"自主工作伙伴"的根本性转变。

2025/05/25 14:37:311,109
#Anthropic#Claude4
Previous
1...313233...41
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • Spark之RDD、Dataset和DataFrame
  • Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问
  • 层次狄利克雷过程(Hierarchical Dirichlet Processes)
  • 2022年必读的AI论文——100个AI领域被引最多的论文分析
  • Anthropic发布了Claude Opus 4.1:这是一个Claude Opus 4的小幅升级版本,价格和技术参数不变,性能略有提升
  • Git提交本地文件
  • AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
  • 阿里正式开源Qwen3.6-27B:代码智能体能力上超越全面超越前代旗舰版本之 Qwen3.5-397B-A17B