统计、机器学习与编程知识的原创博客

2022年9月份最火的10个AI研究——基于GitHub的Star数量排序

九月份刚过去，GitHub上最火的AI研究排序出炉。这是根据9月份GitHub上创建的新的AI研究相关的项目排序，根据Star的数量来的。都是AI各大领域比较受欢迎和重要的项目。

2022/10/03 09:38:29 阅读 2180

AI研究

Google发布面试辅助工具Interview Warmup帮助我们理解谷歌面试内容

最近，谷歌发布了一项新的工具：Google Interview Warmup，让你练习回答由行业专家选定的问题，并使用机器学习来转录你的答案，帮助你发现改进面试的回答。

2022/09/24 21:36:33 阅读 2183

谷歌/面试

博客转移

新浪博客转入

2021/03/08 12:05:54 阅读 2193

关注数据/学习数据/挖掘数据

突破英特尔CPU+英伟达GPU的大模型训练硬件组合：苹果与AMD都有新进展！

大语言模型的训练和微调的硬件资源要求很高。现行主流的大模型训练硬件一般采用英特尔的CPU+英伟达的GPU进行。主要原因在于二者提供了符合大模型训练所需的计算架构和底层的加速库。但是，最近苹果M2 Ultra和AMD的显卡进展让我们看到了一些新的希望。

2023/07/02 23:08:46 阅读 2196

大模型训练/生态/英伟达/英特尔

让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？

在大语言模型中，上下文长度是指模型可以考虑的输入数据的数量。更长的上下文在大语言模型的实际应用中有非常重要的价值。当前，让大语言模型支持更长的上下文有两种常用的方法，一种是训练支持更长上下文长度的模型，扩展模型的输入，另外一种是检索增强生成的方法（Retrieval Augmentation Generation，RAG）。但二者应该如何选择，这是一个很少能直接比较的问题。为此，英伟达（Nvidia）的研究人员做了一个详细的比较。

2023/10/10 15:28:48 阅读 2196

long-context/大语言模型/检索增强生成/长上下文

TorchVision最新0.13版本发布！

PyTorch最新的1.12版本已经在前天发布。而其中TorchVision是基于PyTorch框架开发的面向CV解决方案的一个PyThon库，其最主要的特点是包含了很多流行的数据集、模型架构以及预训练模型等。本次也随着PyTorch1.12的发布更新到了v0.13。此次发布包含几个非常好的提升，值得大家关注。

2022/07/31 11:54:20 阅读 2197

cv/pytorch/torchvision/开源软件

Java入门基础笔记-9

2018/09/22 20:03:01 阅读 2204

Java/入门/基础/新手/笔记

清除浮动方法的总结

2018/10/11 15:23:25 阅读 2204

清除浮动

MistralAI开源全球首个（可能）基于MoE（Mixture of Experts）技术的大模型：预训练下载链接全球直发，但实测表现似乎一般！

MistralAI是一家法国的大模型初创企业，其2023年9月份发布的Mistral-7B模型声称是70亿参数规模模型中最强大的模型，并且由于其商用友好的开源协议，吸引了很多的关注。在昨晚，MistralAI突然在推特上公布了一个磁力下载链接，而下载之后大家发现这是一个基于混合专家的大模型这是由8个70亿参数规模专家网络组成的混合模型（Mixture of Experts，MoE，混合专家网络）。

2023/12/09 20:47:46 阅读 2213

Mistral-7B/Mistral-8x7B-MoE/Mistral-AI/MoE/混合专家

Java入门基础笔记-11

2018/09/22 20:06:49 阅读 2217

Java/入门/基础/新手/笔记

Java入门基础笔记-6

2018/09/22 19:54:47 阅读 2219

Java/入门/基础/新手/笔记

吴恩达的LandingAI究竟是一家什么样的创业公司

吴恩达是人工智能领域非常著名的人物。2011年在谷歌创建的谷歌大脑项目，震惊了全世界。2014年他加入百度负责百度大脑计划，并于2017年离职。离职之后他创建了人工智能公司LandingAI，并担任首席执行官。昨天吴恩达宣布他新成立的这家公司已经募集到5,700万美金。本文主要简单介绍这家公司的业务。

2021/11/10 21:22:46 阅读 2232

人工智能/企业简介

z-index

2018/10/19 22:32:28 阅读 2238

z-index

为什么GitHub要求文件的末尾必须有换行符？

这几天逛reddit的时候发现了一个很有意思的讨论，有个童鞋说他在GitHub上提交代码的时候发现了提交文件被提示有一个红色警告的提示，鼠标移动上去会告诉你“No newline at end of file”（也就是文件末尾没有换行）。因此，他很奇怪，他不懂为什么GitHub要求文件的末尾必须有换行符。这个问题引起了很多的讨论。这里我也顺便记录共享一下。

2022/03/06 17:52:21 阅读 2239

Linux/Unix/Windows/换行符/编程

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

2025/02/06 08:13:31 阅读 2249

MMLU/MMLUPro/大模型评测/评测基准

Hugging Face发布最新的深度学习模型评估库Evaluate！

就在儿童节前一天，Hugging Face发布了一个最新的深度学习模型评估库Evaluate。对于机器学习模型而言，评估是最重要的一个方面。但是Hugging Face认为当前模型评估方面非常分散且没有很好的文档。导致评估十分困难。因此，Hugging Face发布了这样一个Python的库，用以简化大家评估的步骤与时间。

2022/06/01 11:14:40 阅读 2254

huggingface/模型评价/深度学习

使用kaggle房价预测的实例说明预测算法中OneHotEncoder、LabelEncoder与OrdinalEncoder的使用及其差异

对于分类特征的处理，sklearn中常见的方法有两种，一种是OneHotEncoder，另一种很多人说是LabelEncoder，其实不对。sklearn中，还有一个OrdinalEncoder，二者似乎一样，但其实并不相同，差别很大。本文将用Kaggle的房价预测的实例来描述如何这些差异以及不同处理对预测算法的影响。

2021/11/19 00:37:56 阅读 2255

kaggle/sklearn/预测

dask/python

统计、机器学习与编程知识的原创博客

2022年9月份最火的10个AI研究——基于GitHub的Star数量排序

css的层叠性

Google发布面试辅助工具Interview Warmup帮助我们理解谷歌面试内容

博客转移

突破英特尔CPU+英伟达GPU的大模型训练硬件组合：苹果与AMD都有新进展！

让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？

TorchVision最新0.13版本发布！

Java入门基础笔记-9

清除浮动方法的总结

MistralAI开源全球首个（可能）基于MoE（Mixture of Experts）技术的大模型：预训练下载链接全球直发，但实测表现似乎一般！

Java入门基础笔记-11

Java入门基础笔记-6

吴恩达的LandingAI究竟是一家什么样的创业公司

z-index

为什么GitHub要求文件的末尾必须有换行符？

MMLU Pro大模型评测基准介绍：MMLU的进化版本，可以更好区分大模型普遍知识和推理能力的通用评测标准

Hugging Face发布最新的深度学习模型评估库Evaluate！

使用kaggle房价预测的实例说明预测算法中OneHotEncoder、LabelEncoder与OrdinalEncoder的使用及其差异

几个css3选择器

清除浮动的几种方法

background综合属性

Java入门基础笔记-7

网页插入图片相对位置代码

Dask分布式任务中包含写文件的方法时候，程序挂起不结束的解决方案

最新博客