DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
一个基于Python的机器学习项目——各种Kaggle比赛的解决方案

一个基于Python的机器学习项目——各种Kaggle比赛的解决方案

2019/11/03 12:02:163,075
为初学者、中级和有经验的开发者提供70多个python项目

为初学者、中级和有经验的开发者提供70多个python项目

为初学者、中级和有经验的开发者提供70多个python项目, 10000, 小木, PythonHub今天在推上给大家分享了一个非常棒的项目,就是这个为为初学者、中级和有经验的开发者提供70多个python项目。 亲自动手实践一些项目可以增加我们的实际的编程技巧。每一次都做一点将会得到很多。很多人都在GitHub、Reddit或者是Quera上搜索过哪些项目可以让Python初学者、中级者增加经验的Python项目。这次它来了。

2021/06/14 20:13:133,073
#python#编程
大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models

大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models

3月29日,DeepMind发表了一篇论文,"Training Compute-Optimal Large Language Models",表明基本上每个人--OpenAI、DeepMind、微软等--都在用极不理想的计算方式训练大型语言模型。论文认为这些模型对计算的使用一直处于非常不理想的状态。并提出了新的模型缩放规律。

2022/04/04 13:14:093,047
#deepmind#论文快讯
《Effective Java 第三版》笔记之七 消除过期的对象引用

《Effective Java 第三版》笔记之七 消除过期的对象引用

本文是Effective Java第三版笔记的第七个之消除过期的对象引用,Item 7: Eliminate obsolete object references

2018/09/28 15:44:233,042
#effectivejava#java
dask的dataframe的值变成1和foo的解决方法

dask的dataframe的值变成1和foo的解决方法

2020/05/08 14:30:533,040
#dask#python
来自Microsoft Build 2023:大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

来自Microsoft Build 2023:大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

在今年的Microsoft Build 2023大会上,来自OpenAI的研究员Andrej Karpathy在5月24日的一场汇报中用了40分钟讲解了ChatGPT是如何被训练的,其中包含了训练一个能支持与用户对话的GPT的全流程以及涉及到的一些技术。信息含量丰富,本文根据这份演讲总结。

2025/12/21 17:20:243,025
#LLM#RLHF
主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)

主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)

2018/03/07 20:24:133,022
#词向量
全球最大10个的SaaS企业简介

全球最大10个的SaaS企业简介

现代软件企业中,SaaS服务提供商是最值得注意的企业。因为SaaS行业规模大利润高,也是最有前景的一类企业。但是,国内市场因为很多因素导致SaaS的规模和空间都比较低。本文梳理一下全球最大的10个SaaS服务提供商,供大家参考。

2021/12/08 22:58:163,021
#云计算#创业企业
【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

腾讯AI Lab去年四月成立,今年是首次参加ICML,共计四篇文章被录取,位居国内企业前列。此次团队由机器学习和大数据领域的专家、腾讯AI Lab主任张潼博士带领到场交流学习,张潼博士还担任了本届ICML领域主席。在本次130人的主席团队中,华人不超过10位,内地仅有腾讯AI Lab、清华大学和微软研究院三家机构。

2017/11/04 09:36:193,013
#学术#科研
MMLU Pro大模型评测基准介绍:MMLU的进化版本,可以更好区分大模型普遍知识和推理能力的通用评测标准

MMLU Pro大模型评测基准介绍:MMLU的进化版本,可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响,如何准确评测大模型的能力和效果,已经成为业界亟待解决的关键问题。生成式AI模型,如大型语言模型(LLMs),能够生成高质量的文本、代码、图像等内容,但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。 以MMLU评测为例,2023年3月份,GPT-4在MMLU获得了86.4分之后,将近2年后的2024年年底,业界最好的大模型在MMLU上得分也就90.5,提升十分有限。 为此,滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

2025/02/06 08:13:313,011
#MMLU#MMLUPro
康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架:LLMTune

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架:LLMTune

Cornell Tech开源了LLMTune,这是一个可以在消费级显卡上微调大模型的框架,经过测试,可以在48G显存的显卡上微调4bit的650亿参数的LLaMA模型!

2023/05/14 23:42:573,007
#PEFT#大模型微调
网络爬虫之httpclient的使用

网络爬虫之httpclient的使用

网络爬虫之httpclient的使用

2016-09-08 22:11:343,006
#httpclient#Java
如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法:逐步蒸馏(Distilling step-by-step)详解

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法:逐步蒸馏(Distilling step-by-step)详解

华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法,即逐步蒸馏(Distilling step-by-step),这个方法最大的特点有2个:一是需要更少的数据来做模型的蒸馏(根据论文描述,平均只需要之前方法的一半数据,最多只需要15%的数据就可以达到类似的效果);而是可以获得更小规模的模型(最多可以比原来模型规模小2000倍!)

2023/05/05 22:03:052,991
#模型蒸馏
网络爬虫原理

网络爬虫原理

网络爬虫指按照一定的规则(模拟人工登录网页的方式),自动抓取网络上的程序。

2016-09-08 22:03:062,988
#java#网络爬虫
常见的正则表达式写法总结

常见的正则表达式写法总结

正则表达式非常有用,非常强大,但也并不容易写,在这里我们总结一些常用的正则表达式写法

2017/11/18 09:20:502,982
#java#正则表达式
是否需要使用NumPy代替Pandas处理数据以提高性能?

是否需要使用NumPy代替Pandas处理数据以提高性能?

Pandas和NumPy是Python数据科学领域中最基础的两个库,他们都可以读取大量的数据并对数据做计算等处理。有很多的操作他们都能做。那么,这两个Python库在数据处理的性能上有什么差别呢?今天在Reddit上看到一个有意思的讨论和大家分享一下。

2021/12/11 19:50:592,982
#numpy#pandas
LFDMM源码剖析(融入词向量的概率图模型)

LFDMM源码剖析(融入词向量的概率图模型)

源码

2018/03/27 14:48:372,977
#源码
Jsoup使用演示

Jsoup使用演示

网络爬虫

2016-04-06 21:32:562,967
#JAVA#网络爬虫
Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

Llama3是MetaAI开源的最新一代大语言模型。一发布就引起了全球AI大模型领域的广泛关注。这是MetaAI开源的第三代大语言模型,也是当前最强的开源模型。但相比较第一代和第二代的Llama模型,Llama3的升级之处有哪些?本文以图表的方式总结Llama3的升级之处。

2024/04/21 20:31:562,967
#Llama3#Llama3-400B
华为大模型生态重要一步!PyTorch最新2.1版本宣布支持华为昇腾芯片(HUAWEI Ascend)

华为大模型生态重要一步!PyTorch最新2.1版本宣布支持华为昇腾芯片(HUAWEI Ascend)

大模型的发展一个重要的基础条件是底层硬件计算能力的大幅提高,特别是GPU的发展,与transformer架构的大模型训练非常契合。当前全球最大的GPU供应商英伟达系列的显卡几乎垄断了大模型训练与推理的所有GPU芯片市场。除了英伟达显卡本身算力强悍外,基于英伟达GPU之上构建的CUDA、PyTorch等平台软件生态也是非常重要的一环。而最新的PyTorch2.1版本发布的一个beta特性中包含了对华为昇腾芯片的原生支持,这也是大模型生态多样性发展的一个很重要的信号。

2023/10/09 11:45:032,966
#NPU#PyTorch
块级元素和行内元素以及转换

块级元素和行内元素以及转换

2018/10/09 13:38:012,955
#块级元素和行内元素
HttpClient的使用方法案例

HttpClient的使用方法案例

HttpClient的使用方法案例 爬虫

2016-04-06 21:32:332,940
#Java#网络爬虫
Stable Diffusion2.1发布!

Stable Diffusion2.1发布!

刚刚,StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期,2.1版本就发布了,2.1版本有诸多改进功能。

2022/12/08 00:33:512,925
#StabilityAI#StableDiffusion
2023年9月份各大企业拥有的A100的GPU显卡数量

2023年9月份各大企业拥有的A100的GPU显卡数量

在高性能计算(HPC)、人工智能(AI)、和数据分析等领域,图形处理器(GPUs)正在发挥越来越重要的作用。其中,NVIDIA的 A100尤为引人注目。这是英伟达最强大的显卡处理器,也是当前使用最广泛大模型训练用的显卡。本文主要是各大企业最新的2023年9月份拥有的显卡数量统计。

2023/09/16 14:08:582,923
#A100#显卡
Previous
1...151617...41
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • ChatGPT内置隐藏debug功能:支持下载原始对话、可视化对话分支等
  • 最新发布!截止目前最强大的最高支持65k输入的开源可商用AI大模型:MPT-7B!
  • 6种大模型的使用方式总结,使用领域数据集持续做无监督预训练可能是一个好选择
  • 如何基于Gradio构建生成式AI的应用:吴恩达联合HuggingFace推出最新1小时短课
  • 腾讯发布了一个全新的大模型Hunyuan Turbo S:号称评测效果超过GTP-4o和DeepSeek V3等模型,但没有开源或者放开使用
强大的对象分割开源算法!Meta AI开源Segment Anything: Working(SAM)预训练大模型!
  • 构建人工智能应用的开发者指南
  • PinchBench:OpenClaw AI 代理真实任务基准测试介绍