DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客,涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式
按日期排序按浏览量排序
Context Arena:长上下文大模型评测基准介绍

Context Arena:长上下文大模型评测基准介绍

Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集,提供交互式排行榜,用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现,避免单纯依赖训练数据记忆。

2025/12/27 10:42:00648
#ContextArena#大模型评测
OpenAI开始提供大模型(GPT系列模型)的提示缓存(Prompt Caching):GPT-4o系列模型输入价格下降一半,访问速度提升80%

OpenAI开始提供大模型(GPT系列模型)的提示缓存(Prompt Caching):GPT-4o系列模型输入价格下降一半,访问速度提升80%

在大模型的应用中,处理复杂请求往往伴随着较高的延迟和成本,尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题,特别是在长提示和高频交互的场景中,显得尤为突出。为了应对这一挑战,OpenAI 最近推出了 **提示缓存(Prompt Caching)** 功能。这项新技术通过缓存模型处理过的相同前缀部分,避免了重复计算,从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求,提示缓存能够显著提高效率,降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型,以及如何通过合理的提示结

2024/12/18 22:06:07645
#OpenAI#PromptCaching
Mistral AI开源全新的120亿参数的Mistral NeMo模型,Mistral 7B模型的继任者!完全免费开源!中文能力大幅增强!

Mistral AI开源全新的120亿参数的Mistral NeMo模型,Mistral 7B模型的继任者!完全免费开源!中文能力大幅增强!

在人工智能领域,Mistral与NVIDIA的合作带来了一个引人注目的新型大模型——Mistral NeMo。这个拥有120亿参数的模型不仅性能卓越,还为AI的普及和应用创新铺平了道路。MistralAI官方博客介绍说该模型是此前开源的Mistral 7B模型的继承者,因此未来可能7B不会再继续演进了!

2024/07/21 22:34:44643
#Mistral7B#MistralAI
如何在HuggingFace上快速下载DeepSeek-OCR模型?快速下载Hugging Face 大模型的几种实用方法简介

如何在HuggingFace上快速下载DeepSeek-OCR模型?快速下载Hugging Face 大模型的几种实用方法简介

在AI时代,Hugging Face Hub已成为开源大语言模型(LLM)和预训练模型的宝库。从Qwen到DeepSeek系列,这些模型往往体积庞大(几GB甚至上百GB),下载过程容易受网络波动影响,导致中断、重试或失败。作为一名AI从业者,你可能不止一次遇到过“下载到99%就崩”的尴尬。本文将从客观角度,基于实际使用经验,介绍四种常见下载Hugging Face大模型的方法:从基础的Git克隆,到CLI工具、Transformers库,再到国内镜像加速。每种方法都有其适用场景和优缺点,我们将逐一剖析,帮

2025/10/26 20:45:04640
#HuggingFace#大模型教程
新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!

新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!

OpenAI正在申请一个新商标Voice Engine,商标的覆盖范围主要是围绕语音识别、语音合成和语音生成几个方面。这暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务,很有可能是类似Siri那样的个人助理产品。尽管这是商标申请,但是谷歌前雇员透露的信息以及上个月泄露的OpenAI正在开发的产品都似乎印证着OpenAI要做的事情:开发一个全球最强的个人助理,接管个人设备,以Jarvis那样的形式提供服务!

2024/03/22 17:21:48635
#OpenAI#VoiceEngine
OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型

OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型

几个小时前,OpenAI发布了全新一代大模型GPT-5系列。本次发布的是一个全新的AI系统,而非一个单独的模型系列。GPT-5背后包含了5个不同的模型系列或者版本,分别是GPT-5-Pro、GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-Chat。

2025/08/08 08:45:13634
#GPT#GPT-5
70亿参数规模大模型新选择:Deci开源DeciLM-7B大模型,评测效果远超Llama2-7B,每秒可生成328个tokens。

70亿参数规模大模型新选择:Deci开源DeciLM-7B大模型,评测效果远超Llama2-7B,每秒可生成328个tokens。

DeciAI是一家成立于2019年的以色列企业,他们最主要的产品是深度学习平台Deci,可以让大家部署运行更快、更准确的模型。包括Adobe、HPE等都是他们的客户。在昨天,他们开源了截止目前可能是Open LLM Leader综合评分最高的大语言模型DeciLM-7B以及指令优化版本的DeciLM-7B-Instruct。最重要的是,这个模型以Apache2.0的协议开源,可以免费商用。

2023/12/13 22:50:58632
#DeciLM#DeciLM-7B
GPT-4.5:技术细节与用户反馈

GPT-4.5:技术细节与用户反馈

OpenAI 于 2025 年 2 月 27 日发布了 GPT-4.5,作为其语言模型系列的最新版本。尽管具体的技术细节因商业保密而未完全公开,基于现有信息和合理推测,DataLearner提供更具体的数据和分析,同时补充更多来自用户的评价。

2025/03/02 13:07:30632
#GPT-4.5#OpenAI
智谱AI发布GLM-4.5V多模态推理模型

智谱AI发布GLM-4.5V多模态推理模型

智谱AI刚刚开源了新一代视觉-语言模型(Vision-Language Model, VLM)——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air(总参数量1060亿,激活参数量120亿),延续GLM-4.1V-Thinking的技术路线,在42项公开视觉多模态基准测试中,在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景,采用Mixture-of-Experts(MoE)架构,并保持开源。

2025/08/11 23:28:48632
#GLM-4.5V#开源大模型
大语言模型的开发者运维LLMOps来临,比MLOps概念还要新:吴恩达联合Google云研发人员推出免费的LLMOps课程

大语言模型的开发者运维LLMOps来临,比MLOps概念还要新:吴恩达联合Google云研发人员推出免费的LLMOps课程

MLOps的主要目标是创建一个更有效、可重复和可靠的机器学习工作流程。现在,随着大语言模型的流行,LLMOps概念也随之提出。即如何高效地开发大模型应用,包括自动化管理升级如prompt、模型评估等。为此,吴恩达联合Google的研发人员推出了最新的大模型短课LLMOps,帮助大家学习大语言模型开发过程中的自动化测试、自动化Prompt管理等一系列实践,提高大模型应用开发的效率和质量。

2024/01/21 21:37:30629
#AI教程#吴恩达
Google前AI研究人员认为2024年可能不会出现能与GPT-4竞争的开源模型/产品

Google前AI研究人员认为2024年可能不会出现能与GPT-4竞争的开源模型/产品

OpenAI在2023年3月份发布了GPT-4,10个月过去了,目前也没有任何一家产品或者模型可以打败GPT-4。但是,很多人都对2024年抱有非常好的期待,认为2024年会出现能与GPT-4竞争的大模型。包括MistralAI的CEO也说他们会在2024年发布性能媲美GPT-4的大模型。但是,Google前AI研究人员,GalileoAI的联合创始人认为2024年也不会出现这种情况。

2024/01/02 10:54:48627
#GPT-4#开源大模型
导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总

导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总

上周五,OpenAI董事会突然把Sam开除的事件已经结束,闹了好几天之后Sam回归,董事会改组。而这件事的背后导火索有许多传闻,其中最重要的一个是OpenAI可能在最近有一项重大的技术突破,被认为是Sam和董事会分歧的重要原因。而今天,国外的路透社独家消息提到OpenAI内部一个称为Q\*(Q Star)项目取得了非常重大的突破,使得部分人认为AGI很接近,进而引发了一系列事件。本文将根据目前的信息汇总介绍一下Q\*项目。

2023/11/23 18:21:24624
#Q*#大模型
智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权

智谱AI开源多模态推理大模型GLM-4.1V-Thinking:90亿参数,基于强化学习技术,带推理能力,多模态理解能力接近720亿的Qwen2.5-VL-72B,免费商用授权

GLM-4.1V-Thinking是智谱AI(Zhipu AI)与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代,而是通过一个以“推理为中心”的全新训练框架,旨在将多模态模型的能力从基础的视觉感知,推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

2025/07/02 21:11:34620
#GLM#多模态大模型
A21 Labs宣布开源520亿参数的全新混合专家大模型(Mixture of Experts,MoE)Jamba:单个GPU的上下文长度是Mixtral 8x7B的三倍

A21 Labs宣布开源520亿参数的全新混合专家大模型(Mixture of Experts,MoE)Jamba:单个GPU的上下文长度是Mixtral 8x7B的三倍

A21实验室是一家以色列的大模型研究机构,专门从事自然语言处理相关的研究。就在今天,A21实验室开源了一个全新的基于混合专家的的大语言模型Jamba,这个MoE模型可以在单个GPU上支持最高140K上下文的输入,非常具有吸引力。

2024/03/29 00:04:31618
#Jamba#MoE
直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~

直接使用大模型通过界面来操作电脑和浏览器:谷歌发布Gemini 2.5 Computer Use 模型,重塑 AI 与界面交互能力,实测优秀~

就在昨天,2025年10月7日,Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力,新增了“界面交互(UI 控制)”能力,能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:37617
#AIAgent#Gemini2.5ComputerUse
OpenAI 未来计划曝光!Sam Altman 一句话暗示开源 GPT?~Sam在1月31日举办的AMA中问答记录总结

OpenAI 未来计划曝光!Sam Altman 一句话暗示开源 GPT?~Sam在1月31日举办的AMA中问答记录总结

2025年1月31日,OpenAI在Reddit上举办了一场AMA(Ask Me Anything)活动,参与者包括Sam Altman、Mark Chen、Kevin Weil、Srinivas Narayanan、Michelle Pokrass和Hongyu Ren。他们分享了关于模型更新、未来功能、定价策略以及OpenAI对AI和AGI(通用人工智能)的宏观愿景。以下是此次问答的关键内容,并附有相关解释。这里最重要的信息可能是Sam透露认为当前OpenAI的闭源方式可能是历史错误的一方!

2025/02/01 17:19:17616
#AMA#GPT更新
DeepSeekAI开源全新的DeepSeek-OCR模型:参数规模仅30亿的MoE大模型,图像文本结构化提取成本下降十倍!准确率超过Qwen2.5-VL-7B

DeepSeekAI开源全新的DeepSeek-OCR模型:参数规模仅30亿的MoE大模型,图像文本结构化提取成本下降十倍!准确率超过Qwen2.5-VL-7B

DeepSeek AI团队重磅推出DeepSeek-OCR,该模型不仅在文档提取上达到了行业领先水平,更通过创新的视觉压缩技术,将长上下文处理效率提升了 10 倍以上。根据测算,在A100-40G的一个GPU上,它每天可以将20万页的文档图像数据转为Markdown文本!

2025/10/20 20:47:35613
#DeepSeek#DeepSeek-OCR
大模型可以运营自动售货机吗?Anthropic的Project Vend实验:Claude能成功经营一家小店吗?答案是亏损严重还会免费赠送商品!

大模型可以运营自动售货机吗?Anthropic的Project Vend实验:Claude能成功经营一家小店吗?答案是亏损严重还会免费赠送商品!

昨天,Anthropic公布了一项引人注目的实验——Project Vend。他们让旗下的大模型Claude Sonnet 3.7在一个真实的办公环境中,自主经营一家小型自动化商店,为期约一个月。这个实验的目标是探索,在不久的将来,AI模型在真实经济体中自主运行任务的可行性、潜在的成功模式以及那些出人意料的失败方式。实验结果非常强大,也充满了令人深思的细节!

2025/06/28 08:58:33611
#Anthropic#Claude
断层领先!Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview,火爆网络的Nano Banana背后真正的模型发布!

断层领先!Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview,火爆网络的Nano Banana背后真正的模型发布!

就在刚才,Google宣布发布最新的图像生成和编辑大模型Gemini 2.5 Flash Image Preview。该模型就是最近火爆网络的Nana Banana背后真正的模型。该模型在图片生成和编辑方面目前是断层领先,效果非常好。

2025/08/27 01:22:47606
#Gemini2.5FlashImage#图像生成大模型
大模型速度、效果与价格的完美结合?xAI发布Grok 4 Fast:性能接近Grok 4,成本降 98%,生成速度翻倍!

大模型速度、效果与价格的完美结合?xAI发布Grok 4 Fast:性能接近Grok 4,成本降 98%,生成速度翻倍!

xAI 正式发布 Grok 4 Fast —— 一款以 极致性价比与前沿性能 为核心卖点的新一代推理模型。相比前代产品,它不仅在推理准确率上几乎与旗舰模型Grok 4等持平,还凭借 40%更高的推理效率 和 高达98%的成本降低,将高质量智能推理真正带入大众用户和企业应用场景。

2025/09/21 21:09:22604
#Grok4#Grok4Fast
最近很火的基于人工智能(AI)的vibe coding是什么?它和传统软件编码之间有什么区别?

最近很火的基于人工智能(AI)的vibe coding是什么?它和传统软件编码之间有什么区别?

“Vibe Coding”(氛围编程)是一种新兴的编程范式,强调通过自然语言与人工智能(AI)协作开发软件。该概念由前 OpenAI 研究员 Andrej Karpathy 于 2025 年提出,旨在让开发者沉浸于创作氛围中,利用 AI 的能力,将自然语言描述转化为实际源代码,从而简化编程过程。

2025/06/08 20:56:21595
#AI应用#AI编程
xAI发布Grok 4.2 Beta版本:一个由四个专家组成的专业团队,实测效果目前还可以

xAI发布Grok 4.2 Beta版本:一个由四个专家组成的专业团队,实测效果目前还可以

就在刚才,Grok官网出现了Grok 4.2 Beta版本,并且已经可以直接使用。即使是免费用户,目前看也可以使用至少8次的提问。

2026/02/17 21:27:58594
#Grok4.2#GrokTeams
微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型,但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型,接近GPT-4o mini。

微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型,但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型,接近GPT-4o mini。

2025年2月27日,微软正式发布了其全新系列的大型语言模型——Phi-4系列。这一系列包含了三个创新性的模型:Phi-4-Mini、Phi-4-Multimodal和一款经过推理优化的Phi-4-Mini。此次发布的模型不仅在性能上展现出色,更在多模态能力与推理任务中实现了显著突破。其中,Phi-4-Multimodal是一个仅仅包含56亿参数规模的多模态大模型,但是支持文本、语音、图片的输入,十分强大。

2025/02/27 22:20:01588
#Phi-4mini#Phi4
OpenAI正在开发一个全新的基于大模型的Agent产品

OpenAI正在开发一个全新的基于大模型的Agent产品

今天The Information独家披露了一个令人兴奋的消息,那就是OpenAI正在开发一种Agent产品,可以通过控制用户的设备来帮助用户完成复杂的任务。

2024/02/08 20:28:56587
#AIAgent#ChatGPT新功能
上一页
1...353637...40
下一页

专题合集

RAG(检索增强生成)Long Context 长上下文AI Agent 实践

最热博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

  • OpenAI世界最强的语音识别预训练模型WhisperV2即将来临
  • 全球最大(最挣钱)的十大开源企业
  • Dask分布式任务中包含写文件的方法时候,程序挂起不结束的解决方案
  • MMLU Pro大模型评测基准介绍:MMLU的进化版本,可以更好区分大模型普遍知识和推理能力的通用评测标准
  • 用python绘制散点图
  • 重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)
  • 2023年度巨献,一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜
Meta即将推出开源的CodeLLaMA:一种新的编程AI模型