DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
LLM News

LLM Technical News Blog

Explore the latest AI and LLM news, research findings, and technical blogs. Daily updates on cutting-edge developments in deep learning, machine learning, and neural networks.

Tech News#AI#SQLCoder2#SQLCoder-7B

SQLCoder2与SQLCoder-7B模型发布:7B参数规模与卓越性能

SQLCoder2与SQLCoder-7B模型正式开源,这两款模型分别基于StarCoder和Mistral-7B模型进行了微调,专注于处理SQL查询。SQLCoder2是一款15B参数的大型语言模型,而SQLCoder-7B则是首个7B参数规模的模型,几乎与SQLCoder2有相同的性能表现。在开源评估框架中,SQLCoder在训练中未见过的新模式上超越了所有可用的大型语言模型,除了GPT-4。当针对特定模式进行微调时,其性能甚至超过了所有模型,包括GPT-4。

2023-11-26 21:331,419
Tech News#AI#大模型#SQLCoder

SQLCoder2与SQLCoder-7B发布:7B参数规模与卓越性能

近日,SQLCoder2与SQLCoder-7B两款大模型开源,其中SQLCoder2是原SQLCoder模型的显著改进版本,而SQLCoder-7B则是首个7B参数规模的模型,性能几乎与SQLCoder2相同。这两款模型在开源评估框架上的表现超越了除GPT-4外的所有可用大型语言模型,并在特定架构上的微调后,其性能甚至超越了GPT-4。

2023-11-26 21:231,073
Tech News#AI#大模型#SQLCoder

SQLCoder2与SQLCoder-7B模型发布:性能卓越,开源可用

近日,两款新的大模型SQLCoder2和SQLCoder-7B正式开源。这两款模型在开源评估框架中的表现超越了除GPT-4外的所有大型语言模型,尤其在特定架构的微调后,性能更是优于GPT-4。

2023-11-26 21:191,105
Tech News#AI#大模型#英特尔Gaudi2

英特尔Gaudi2加速器助力7B级聊天模型登顶LLM排行榜

本文介绍了英特尔公司如何利用Gaudi2 AI加速器进行监督式微调和直接偏好优化,以及其7B级聊天模型在LLM排行榜上的优异表现。

2023-11-26 21:05206
Tech News#AI#大模型#量化

量化对大模型影响有多大?——KL散度测试深度解析

本文深入探讨了量化技术对大型AI模型的实际影响,并通过KL散度测试对不同量化级别的模型进行了比较分析。

2023-11-23 16:41876
Tech News#AI#量化#大模型

量化对大模型的影响究竟有多大?- KL散度测试深度解析

本文深入探讨了量化技术对大型AI模型的影响,通过KL散度的测试数据,为我们揭示了量化在不同程度上对模型预测能力的影响。

2023-11-23 16:39829
Tech News#AI#大模型#量化

量化对大模型的影响究竟有多大?- KL散度测试揭示真相

在AI领域,量化技术被广泛应用于优化大型模型的存储和计算效率。但量化会对模型的性能产生何种影响?本文通过KL散度测试,深入探讨了量化对不同大小模型的实际影响,揭示了量化对模型预测能力的具体影响程度。

2023-11-23 16:362,128
Tech News#AI#Q*#计算机科学

解密Q*模型:AI领域的新突破还是威胁人类的灰洞?

近日,计算机科学界出现了一个神秘的新模型Q*,引发了广泛的讨论和猜测。这篇博客将深入探讨Q*模型的可能性、技术细节以及它对人工智能未来的意义。

2023-11-23 16:30305
Tech News#Q*#AGI#计算机科学

揭秘Q*:神秘的大模型技术革新

近日,一篇关于Q*的讨论激发了科技界的好奇心。Q*被认为是一种先进的人工智能(AGI),可能会对未来的人工智能发展产生重大影响。本文将探讨Q*的潜在能力以及它对行业和社会的潜在影响。

2023-11-23 16:28387
Tech News#OpenAI#人工智能#Sam Altman

OpenAI内部动荡揭秘:人工智能新发现引发安全担忧

近日,OpenAI公司内部发生动荡,CEO Sam Altman被解雇的背后,是一封关于人工智能新发现的内部信函和对应的AI算法。本文将探讨这一事件的起因、过程以及可能的影响。

2023-11-23 14:24607
Tech News#人工智能#OpenAI#Sam Altman

人工智能的新突破与潜在风险:OpenAI内部动态揭秘

近日,OpenAI公司内部发生了一系列事件,包括CEO Sam Altman的离职以及一封关于人工智能新发现的内部信件。本文将深入探讨这些事件背后的技术发展和潜在风险。

2023-11-23 14:09177
Tech News#人工智能#OpenAI#Q*

OpenAI的Q*项目:人工智能的新突破还是潜在威胁?

近日,OpenAI的CEO Sam Altman被解雇前夕,公司内部研究人员向董事会发出警告信,提到一个强大的人工智能发现可能对人类构成威胁。本文将探讨这一事件背后的技术发展,以及它对人工智能领域未来的意义。

2023-11-23 14:07375
Tech News#大模型技术#AI#计算机

大模型技术进阶:Claude 2.1的新突破

本文介绍了最新的大模型技术Claude 2.1的核心进展,包括200K token上下文窗口、减少幻觉率、系统提示和新的beta工具使用功能。

2023-11-22 23:25926
Tech News#大模型技术#本地化#开源

大模型技术的未来:本地化与开源的重要性

随着大模型技术的不断发展,越来越多的讨论开始聚焦于模型的本地化和开源性。本文将探讨大模型技术的未来趋势,以及本地化和开源对于AI安全和用户体验的重要性。

2023-11-22 23:06635
Tech News#ChatGPT-4#Claude#大模型

大模型技术对比:ChatGPT-4与Claude的详细写作风格指导

本文将对比ChatGPT-4与Claude在接受详细写作风格指导后的表现,探讨大模型在内容创作上的优势与局限性,并提供专业的理解和见解。

2023-11-21 20:03567
Tech News#LangChain#GPTs#Hugging Face

LangChain与GPTs的技术对比与选择

本文将探讨LangChain和Hugging Face框架相对于GPTs的优势,以及在自动化提示和连接APIs的情景下,哪种技术方案更为合适。

2023-11-21 19:59604
Tech News#人工智能#语言模型#Orca 2

Orca 2:小型语言模型的巨大飞跃

本文将介绍最新发布的Orca 2模型,这是一个具有7亿至13亿参数的小型语言模型,它在复杂任务中展示了与大型模型相似甚至更优的推理能力。

2023-11-21 19:42481
Tech News#Orca 2#语言模型#人工智能

Orca 2:小型语言模型的推理能力大突破

Orca 2模型的出现,标志着小型语言模型在推理能力上的重大进步。本文将深入探讨Orca 2的特点、价值以及其在小型模型上的创新应用。

2023-11-21 19:40226
Tech News#人工智能#语言模型#Orca 2

Orca 2:小型语言模型的理性思维新突破

本文将介绍最新的小型语言模型Orca 2,它的参数、特点以及价值。Orca 2在训练信号和方法的改进下,以小型语言模型实现了增强的推理能力。本文将深入解析Orca 2的训练方法和优势,并对其进行详细的介绍。

2023-11-21 19:34189
Tech News#GPT-4#AI#模型性能

GPT-4-128K长文本回忆压力测试:深度理解模型性能

本文基于对GPT-4-128K模型的长文本回忆压力测试讨论,深度剖析了模型在处理长文本时的性能表现,以及如何优化使用模型的策略。文章旨在帮助读者更加深入理解模型的工作原理,并提出有效的使用策略。

2023-11-09 17:57734
Previous
1...567...12
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • Wishart分布简介
  • 智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B:图片文本带有中英文混排,指定比例范围内的任意尺寸图像可生成,免费商用授权
  • 最新好课!从深度学习到stable diffusion的手把手入门教程
  • Spark源码分析之RDD下的KMeans
  • HuggingFace开源语音识别模型Distil-Whisper,基于OpenAI的Whisper-V2模型蒸馏,速度快6倍,参数小49%!
  • OpenAI是一家什么样的企业——OpenAI介绍与成果总结
  • 网络爬虫原理
  • Java入门基础笔记-11