DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
Batch Normalization应该在激活函数之前使用还是激活函数之后使用?

Batch Normalization应该在激活函数之前使用还是激活函数之后使用?

Batch Normalization(BN)是深度学习领域最重要的技巧之一,最早由Google的研究人员提出。这个技术可以大大提高深度学习网络的收敛速度。简单来说,BN就是将每一层网络进行归一化,就可以提高整个网络的训练速度,并打乱训练数据,提升精度。但是,BN的使用可以在很多地方,很多人最大的困惑是放在激活函数之前还是激活函数之后使用,著名机器学习领域的博主Santiago总结了这部分需要注意的内容。

2022/11/05 14:42:332,922
#BatchNormalization#深度学习
重磅!苹果官方发布大模型框架:一个可以充分利用苹果统一内存的新的大模型框架MLX,你的MacBook可以一键运行LLaMA了

重磅!苹果官方发布大模型框架:一个可以充分利用苹果统一内存的新的大模型框架MLX,你的MacBook可以一键运行LLaMA了

苹果刚刚发布了一个全新的机器学习矿机MLX,这是一个类似NumPy数组的框架,目的是可以在苹果的芯片上更加高效地运行各种机器学习模型,当然最主要的目的是大模型。

2023/12/06 22:05:252,909
#MLX#统一内存架构
大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型的技术总结系列一:RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型(Large Language Model,LLM)是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主,现在则基本上转成了Transformer的架构。尽管如此,Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇,主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:332,904
#LLM#RNN
对比关系生成模型(Comparative Relation Generative Model)

对比关系生成模型(Comparative Relation Generative Model)

2018/03/09 09:00:212,903
#生成模型
12倍推理速度提升!Meta AI开源全新的AI推理引擎AITemplate

12倍推理速度提升!Meta AI开源全新的AI推理引擎AITemplate

为了提高AI模型的推理速度,降低在不同GPU硬件部署的成本,Meta AI研究人员在昨天发布了一个全新的AI推理引擎AITemplate(AIT),该引擎是一个Python框架,它在各种广泛使用的人工智能模型(如卷积神经网络、变换器和扩散器)上提供接近硬件原生的Tensor Core(英伟达GPU)和Matrix Core(AMD GPU)性能。

2022/10/04 13:28:272,896
#AITemplate#AI推理速度
初学者搭建C语言开发环境

初学者搭建C语言开发环境

C语言的编程与Java和Python有所差别。C语言的开发环境的搭建与其它也有所不同。本文主要是针对初学者提供一个C语言开发环境的搭建指南。

2021/09/20 21:41:562,890
#C语言#编程
TensorRT-LLM:英伟达推出的专为提升大模型推理速度优化的全新框架

TensorRT-LLM:英伟达推出的专为提升大模型推理速度优化的全新框架

随着大型语言模型(LLM)如 GPT-3 和 BERT 在 AI 领域的崛起,如何在实际应用中高效地进行模型推断成为了一个关键问题。为此,英伟达推出了全新的大模型推理提速框架TensorRT-LM,可以将现有的大模型推理速度提升4倍!

2023/09/10 18:41:092,887
#TensorRT#TensorRT-LLM
Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

2018/04/20 22:13:522,882
#源码
神器!AI硬件基准测试库发布

神器!AI硬件基准测试库发布

2019/06/30 21:14:312,874
#人工智能
!important属性和权重

!important属性和权重

2018/10/07 21:42:062,869
#!important和权重
0基础安装搭建Visual Studio Code开发环境——Python开发环境

0基础安装搭建Visual Studio Code开发环境——Python开发环境

Visual Studio Code简称VS Code,是由微软开发的跨平台免费开源的源代码编辑器。相比较Eclipse、PyCharm等软件,它很轻量,并不太像一个完整的IDE(Integrated Development Environment,集成开发环境)。但是,由于其轻量、快速、第三方扩展生态强大等原因,在2015年推出之后就迅速发展成为最受欢迎的开发环境。2019年的Stack Overflow的开发者调查中名列第一,使用占比月50.7%。

2022/12/10 16:58:052,867
#Python#VSCode
python中Scrapy的安装详细过程

python中Scrapy的安装详细过程

python中Scrapy的安装详细过程

2016-09-18 08:30:302,857
#python#网络爬虫
开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二!

开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二!

大语言模型开源领域最重要的一个模型就是MetaAI开源的Llama系列。当前,很多著名开源模型都是基于Llama系列进行预训练得到。就在刚才,MetaAI开源了第三代Llama3系列。官方透露的信息非常多,Llama3系列是目前为止最强的开源大语言模型,未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!

2024/04/19 01:15:492,855
#Llama3#Llama3-400B
全球主要开源组织概述

全球主要开源组织概述

开源软件在现代互联网技术的发展中扮演者重要的作用。很多技术的进步和发展都是由开源软件推动的。而开源软件的发展离不开背后强大的开源组织的管理。本文列举最著名的五个开源组织,简述其背景,欢迎大家阅读。

2022/04/23 21:21:112,851
#开源
网络爬虫之java基础篇QueryRunner(Ⅲ)

网络爬虫之java基础篇QueryRunner(Ⅲ)

网路爬虫数据库操作

2016-09-08 22:10:022,845
#Java#数据库
margin

margin

2018/10/11 22:17:042,845
#margin
重磅!谷歌开源Gemini同源技术大模型Gemma,分别为70亿参数和20亿参数,同等规模参数评测极其优秀!

重磅!谷歌开源Gemini同源技术大模型Gemma,分别为70亿参数和20亿参数,同等规模参数评测极其优秀!

Google Gemini是谷歌最新推出的和OpenAI竞争的大语言模型。尽管Gemini褒贬不一,但是Gemini模型的影响力是巨大的。而现在更加令人激动的是谷歌开源了2个新的不同参数规模的模型,分别是Gemma 7B和Gemma 2B,其技术与Gemini模型一致。但是这两个开源模型完全公开,可以商用授权。

2024/02/21 22:02:282,845
#Gemini#Gemma
最新发布!截止目前最强大的最高支持65k输入的开源可商用AI大模型:MPT-7B!

最新发布!截止目前最强大的最高支持65k输入的开源可商用AI大模型:MPT-7B!

昨天,开源AI模型领域迎来一个重磅玩家,MosaicML发布MPT-7B系列模型,根据官方宣布的测试结果,MPT-7B的水平与MetaAI发布的LLaMA-7B水平差不多,属于当前开源领域最强大的模型。最重要的是,MPT-7B系列中有一个可以支持最多65k上下文输入的开源模型,比GPT-4的32k还高!应该是目前最长的!

2023/05/07 09:20:262,840
#MPT-7B#开源模型
国产大模型进展神速!清华大学NLP小组发布顶尖多模态大模型:VisCPM,支持文本生成图片与多模态对话,图片理解能力优秀!

国产大模型进展神速!清华大学NLP小组发布顶尖多模态大模型:VisCPM,支持文本生成图片与多模态对话,图片理解能力优秀!

大模型的发展正在从单纯的语言模型向多模态大模型快速发展。尽管GPT-4号称也是一个多模态大模型,但是受限于GPU资源,GPT-4没有开放任何多模态的能力(参考:https://www.datalearner.com/blog/1051685866651273 )。目前大家所能接触到的多模态大模型很少。今天,清华大学NLP小组带来了新的选择,发布了VisCPM系列多模态大模型。VisCPM系列包含2类多模态大模型,分别针对多模态对话和文本生成图片进行优化。

2023/06/30 21:36:232,836
#CPM-Bee#VisCPM
《Effective Java 第三版》笔记之二 当构造参数很多的时候考虑使用builder

《Effective Java 第三版》笔记之二 当构造参数很多的时候考虑使用builder

本文是Effective Java第三版笔记的第二个之当构造参数很多的时候考虑使用builder

2018/09/17 22:15:332,830
#effectivejava#java
2026年5月份最新AI Agent系统设计与技术进展研究报告

2026年5月份最新AI Agent系统设计与技术进展研究报告

本报告按用户要求以中文撰写,时间范围优先覆盖 2024–2026,并纳入若干对当前路线仍具决定性影响的 2023 奠基工作;不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页,以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。

2026/05/19 17:17:212,829
#AIAgent#Reports
为什么Python可以处理任意长度的整数运算——Python原理详解

为什么Python可以处理任意长度的整数运算——Python原理详解

在做LeetCode题目的时候,有一类题目是关于大数运算的。比如,全排列计算或者组合运算,在使用C语言或者Java代码解决这类问题的时候都会遇到变量数值超过阈值的情况。一般来说需要自己构造字符串数组或者是其它数组来存储超过长度的数值。但是,使用Python语言处理这类问题时候却毫无压力,这类题目的计算不会有任何问题。本文将从Python底层实现解释这个问题。

2022/05/26 21:06:582,816
#Python
OpenAI官方Prompt教程:如何让ChatGPT扮演不同角色,完成教学任务

OpenAI官方Prompt教程:如何让ChatGPT扮演不同角色,完成教学任务

Prompt技巧一直是提升ChatGPT等大语言模型使用效率的最重要方法之一。为此,OpenAI官方也在不断地分享官方的Prompt技巧。2023年的8月31日,OpenAI官方最新分享了一个教室使用的Prompt来帮助老师授课的案例。尽管这是针对老师的Prompt教程,但是其中的设计思路其实也可以广泛运用在客服、问答系统、编程等领域。

2023/09/01 08:50:302,804
#ChatGPTPrompt#Prompt
页面内锚点

页面内锚点

2018/09/29 20:58:342,798
#锚点
Previous
1...161718...41
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • 马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力?新消息泄露该模型支持2.5万个字符上下文!
  • 回归分析方法之岭回归(Ridge Regression)
  • 抛弃Spark?Flink会是下一代大数据计算引擎吗?
  • OpenAI最新的文本生成图像大模型DALL·E3发布!生成的图像不忽略每一个细节的文本!
  • 没有显卡也没关系!基于Google Colab免费GPU额度部署Stable Diffusion XL模型,可以生成4K的图!
截止目前中文领域最大参数量的大模型开源:上海人工智能实验室开源200亿参数的书生·浦语大模型(InternLM 20B系列),性能提升非常明显!
  • Eclipse安装SVN插件
  • MetaAI开源高质量高精度标注的图像数据集FACET:3.2万张图片、5万个主题,平均图像解析度达到1500×2000