DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
  1. Home/
  2. Blog/
  3. Tag: 公开网络数据集
Tag

Articles tagged "公开网络数据集"

A curated list of original AI and LLM articles related to "公开网络数据集", updated regularly.

Tags:#公开网络数据集
Google发布迄今为止公开可用的最大的多语言网络数据集MADLAD-400,覆盖419种语言

Google发布迄今为止公开可用的最大的多语言网络数据集MADLAD-400,覆盖419种语言

Google DeepMind与Google Research的研究人员推出了一个全新的多语言数据集——MADLAD-400!这个数据集汇集了来自全球互联网的419种语言的大量文本数据,其规模和语言覆盖范围在公开可用的多语言数据集中应该是最大的。研究人员从Common Crawl这个庞大的网页爬虫项目中提取了大量数据,并进行了人工审核,删除了许多噪音,使数据集的质量得到了显著提升。

2023/09/13 07:26:541,693
#MADLAD-400#公开网络数据集

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • 块级元素和行内元素以及转换
  • 分类和Logistic回归
  • Python编程环境搭建——小白起步教程!
  • softmax作为输出层激活函数的反向传播推导
  • Context Arena:长上下文大模型评测基准介绍
  • tokens危机到来该怎么办?新加坡国立大学最新研究:为什么当前的大语言模型的训练都只有1次epoch?多次epochs的大模型训练是否有必要?
  • OpenAI最新的文本生成图像大模型DALL·E3发布!生成的图像不忽略每一个细节的文本!
  • 大语言模型的指令微调(Instruction Tuning)最全综述:从数据集到技术全解析