Latest AI Insights

Model Leaderboards

Model Directory

Model Comparison

Resource Center

LanguageEnglish

Search blog

DataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

Leaderboards
Model comparison
Datasets

Resources

Tutorials
Editorial
Tool directory

Company

About
Privacy policy
Data methodology
Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policy Terms of service

Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

asd

asd

asd

2021/08/17 12:41:191,952

吴恩达宣布和OpenAI、LangChain、Lamini三家公司一起推出三门全新AI短视频课程：ChatGPT API、LangChain和Diffusion Models

吴恩达宣布和OpenAI、LangChain、Lamini三家公司一起推出三门全新AI短视频课程：ChatGPT API、LangChain和Diffusion Models

今天，吴恩达在推特上宣布和OpenAI、LangChain以及Lamini三家公司共同推出了3门短视频课程，分别是《使用ChatGPT API构建系统》、《基于LangChain的大语言模型应用与开发》和《Diffusion模型是如何工作的》。三门课程都是1个小时的短视频课程，而且配有详细的Jupyter Notebook使用方法。

2023/06/01 23:27:321,957

#AI教程 #吴恩达

阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

通义千问是阿里巴巴开源的一系列大语言模型。Qwen系列大模型最高参数量720亿，最低18亿，覆盖了非常多的范围，其各项评测效果也非常好。而昨天，Qwen团队的开发人员向HuggingFace的transformers库上提交了一段代码，包含了Qwen2的相关信息，这意味着Qwen2模型即将到来。

2024/01/31 12:50:161,966

#Qwen-7B #Qwen2

div和span的区别

div和span的区别

2018/09/30 21:41:461,969

深度学习中为什么要使用Batch Normalization

深度学习中为什么要使用Batch Normalization

Batch Normalization（BN）是一种深度学习的layer（层）。它可以帮助神经网络模型加速训练，并同时使得模型变得更加稳定。尽管BN的效果很好，但是它的原理却依然没有十分清晰。本文总结一些相关的讨论，来帮助我们理解BN背后的原理。

2021/11/03 21:05:271,986

#BatchNormalization #深度学习

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

开源大语言模型经过一年多的发展，终于有一个模型可以在权威榜单上击败GPT-4的较早的版本，这就是CohereAI企业开源的Command R+。这是一个开源但是不允许商用的模型，参数规模达到1040亿，也是目前为止开源参数规模最大的一个模型。

2024/04/09 20:35:231,987

#CohereAI #CommandR

Qwen1.5系列再次更新：阿里巴巴开源320亿参数Qwen1.5-32B模型，评测结果超过Mixtral 8×7B MoE，性价比更高！

Qwen1.5系列再次更新：阿里巴巴开源320亿参数Qwen1.5-32B模型，评测结果超过Mixtral 8×7B MoE，性价比更高！

阿里巴巴最新开源了320亿参数的大语言模型Qwen1.5-32B，这个模型在各项评测结果中都略超此前最强开源大模型Mixtral 8×7B MoE，比720亿参数的Qwen-1.5-72B模型略差。但是一半的参数意味着只有一半的显存，这样的性价比极高。

2024/04/06 22:07:311,989

#Qwen1.5 #Qwen1.5-32B

全球首个AI软件工程师问世：可以自己训练微调大模型的AI软件工程师Devin简介

全球首个AI软件工程师问世：可以自己训练微调大模型的AI软件工程师Devin简介

大多数编程领域的大模型应用都是单行代码补全或者单个函数生成的方式。完整的程序生成依然面临较大的挑战。而现在，一个初创企业直接发布了一个AI软件工程师，可以直接作为一个程序员来接受用户需求和反馈，独立完成编码和应用上线功能。这就是Cognition发布的全球首个AI软件工程师Devin。

2024/03/13 00:15:181,993

#AI软件工程师 #Devin

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息，包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集，并未公开数据源。但是内容还是有一定参考性，大家自行判断。

2023/07/11 09:36:142,013

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

阿里巴巴刚刚开源了第三代千问大模型，Qwen3系列包含了8个不同参数规模的大模型，最大达到2350亿参数规模，最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本，即Qwen3可以根据输入问题的情况自动选择是否进行推理。

2025/04/29 08:59:572,026

#Qwen3 #Qwen3-0.6B

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

OpenAI是全球最著名的人工智能研究机构，发布了许多著名的人工智能技术和成果，如大语言模型GPT系列、文本生成图片预训练模型DALL·E系列、语音识别模型Whisper系列等。由于这些模型在各自领域都有相当惊艳的表现，引起了全世界广泛的关注。

2022/12/09 23:13:302,031

Python3.10版本的结构模式匹配（structural pattern matching）简介

Python3.10版本的结构模式匹配（structural pattern matching）简介

Python最新正式版本3.10在10月4日已经发布。这个版本从2020年5月开始开发，经历差不多一年半的时间终于正式发布。当然每一个新版本都有很多新功能。我们将持续关注新功能，在这篇文章中，我们将简述3.10中新功能中的语法——结构模式匹配（structural pattern matching）。

2021/10/14 22:45:202,051

#python #structuralpatternmatching

一个非常有趣的数据工程师小游戏

一个非常有趣的数据工程师小游戏

Firebolt开发了一个数据工程师的网页小游戏，带你体验数据分析的全流程。游戏里你扮演一个数据工程师，从数据收集开始，经历数据pipeline、数据入数据湖以及数据分析等，最终形成各种图表的结果。

2022/03/29 10:02:562,053

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

异质表格数据是最常用的数据形式，对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上，深度神经网络已多次显示出优异的性能，因此被广泛采用。然而，它们在表格数据建模（推理或生成）方面的应用仍然具有高度挑战性。

2022/03/31 12:15:192,055

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

Gemma系列大模型是Google开源的一系列轻量级的大模型。就在刚才（2025年3月12日），Google开源了第三代Gemma系列大模型，共包含4个不同参数规模版本，第三代的Gemma 3系列是多模态大模型，即使是最小的10亿参数规模的Gemma 3-1B也支持多模态输入。

2025/03/12 22:50:222,068

#Gemini #Gemma3

关于border

关于border

2018/10/08 21:47:442,069

推荐一个给新手的可视化的机器学习模型训练网站

推荐一个给新手的可视化的机器学习模型训练网站

使用AI技术预测未来、对数据进行分类可以解决很多个人或者小企业的问题。然而，对于新手和非行业的小企业来说，学习或者雇佣一个专业人才解决这些问题似乎有些得不偿失。这里给大家推荐一个给新手的可视化的机器学习模型训练网站，可以让大家都能享受到AI技术带来的红利。

2022/04/21 21:46:222,072

关于padding

关于padding

2018/10/08 21:16:212,088

缺少有标注的数据集吗？福音来了——HuggingFace发布few-shot神器SetFit

缺少有标注的数据集吗？福音来了——HuggingFace发布few-shot神器SetFit

少量标记的学习（Few-shot learning）是一种在较少标注数据集中进行模型训练的一种学习方法。为了解决大量标注数据难以获取的情况，利用预训练模型，在少量标记的数据中进行微调是一种新的帮助我们进行模型训练的方法。而就在昨天，Hugging Face发布了一个新的语句transformers（Sentence Transformers）框架，可以针对少量标记数据进行模型微调以获取很好的效果。

2022/09/27 23:17:152,095

#few-shotlearning #sentencetransformers

重磅！OpenAI发布GPT-4o mini，这是GPT-3.5的替代升级版，价格下降60%，但是更快更强！编程能力甚至超过GPT-4！

重磅！OpenAI发布GPT-4o mini，这是GPT-3.5的替代升级版，价格下降60%，但是更快更强！编程能力甚至超过GPT-4！

就在刚才，OpenAI官方宣布即将推出GPT-4o mini模型，这是一个成本很低的AI大模型，是GPT-3.5的替代版本。OpenAI官方说，该模型最大的特点是很便宜，但是能力更强，因此可以极大提高AI在不同领域的应用。

2024/07/19 03:02:562,096

#GPT-4 #GPT-4omini

来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

OpenAI发布的产品中，有2个产品可以用来将GPT当作一个类似AI Agent工具使用，同时支持接入自定义的接口和数据。那就是GPTs和Assistant API，前者可以在界面直接操作，后者则是一个API，两者功能接近，为了让大家更加清晰理解二者区别，OpenAI官方最近发布了二者的解释。

2023/12/08 08:51:112,110

#AssistantAPI #ChatGPT

input标签

input标签

2018/09/30 22:11:272,111

Git提交本地文件

Git提交本地文件

Git操作记录

2020/03/20 09:33:302,114

gluon模型因Intert链接问题无法下载怎么办

gluon模型因Intert链接问题无法下载怎么办

gluon模型无法下载

2019/02/15 14:52:562,135

1...171819...41

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

OpenAI发布最新Embedding模型——可惜又是一个收费API
TFboys：使用Tensorflow搭建深层网络分类器
阿里开源最新Qwen-14B：英文理解能力接近LLaMA2-70B，数学推理能力超过GPT-3.5！
GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）
网络爬虫需要掌握的基础知识
层次狄利克雷过程简介（Hierarchical Dirichlet Process， HDP）

《Effective Java 第三版》笔记之七消除过期的对象引用

AipexBase：让 AI 生成的应用真正能跑起来的国产开源AI后端底座