Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

重磅!学术论文处理预训练大模型GALACTICA发布!

重磅!学术论文处理预训练大模型GALACTICA发布!

自然语言处理预训练大模型在最近几年十分流行,如OpenAI的GPT-3模型,在很多领域都取得了十分优异的性能。谷歌的PaLM也在很多自然语言处理模型中获得了很好的效果。而昨天,PapersWithCode发布了一个学术论文处理领域预训练大模型GALACTICA。功能十分强大,是科研人员的好福利!

2022/11/17 23:06:241,711
6张示意图解释6种语言模型(Language Transformer)使用方式

6张示意图解释6种语言模型(Language Transformer)使用方式

近几年语言模型的发展速度很快,各种大语言预训练模型的推出让算法在各种NLP的任务中都取得了前所未有的成绩。其中2017年谷歌发布的Attention is All You Need论文将transformer架构推向了世界,这也是现在最流行的语言模型结构。威斯康星大学麦迪逊分校的统计学教授Sebastian Raschka总结了6中Language Transformer的使用方法。值得一看。

2022/11/06 11:56:311,952
Batch Normalization应该在激活函数之前使用还是激活函数之后使用?

Batch Normalization应该在激活函数之前使用还是激活函数之后使用?

Batch Normalization(BN)是深度学习领域最重要的技巧之一,最早由Google的研究人员提出。这个技术可以大大提高深度学习网络的收敛速度。简单来说,BN就是将每一层网络进行归一化,就可以提高整个网络的训练速度,并打乱训练数据,提升精度。但是,BN的使用可以在很多地方,很多人最大的困惑是放在激活函数之前还是激活函数之后使用,著名机器学习领域的博主Santiago总结了这部分需要注意的内容。

2022/11/05 14:42:332,955
好消息~Kaggle提高了免费的GPU和内存等计算资源的使用额度!

好消息~Kaggle提高了免费的GPU和内存等计算资源的使用额度!

Kaggle是机器学习竞赛平台当之无愧的老大,除了提供了平台让企业和研究机构发布机器学习相关竞赛来让大家竞技和交流以外,他们还提供了免费的编程平台让大家使用免费的GPU和内存来训练模型和测试模型效果。而昨天,Kaggle升级了这些免费资源服务。

2022/10/20 21:50:414,730
Kaggle 2022调查报告出炉!看看过去一年数据科学家都在干啥!

Kaggle 2022调查报告出炉!看看过去一年数据科学家都在干啥!

kaggle是各类机器学习竞赛的著名平台,上面聚集了大量的机器学习比赛和数据集,也有大量的数据处理相关专业人员。每年官方都会向平台用户发放问卷,调查数据科学家的工具使用和平台采用情况。今年的调查结果也在两天前发出,有很多有意思的结论。

2022/10/13 14:54:101,530
最高50万美金!全新高额奖金的AI竞赛——AI预测大赛

最高50万美金!全新高额奖金的AI竞赛——AI预测大赛

预测在全球决策中发挥着关键作用。例如,关于COVID-19扩散的预测为国家封锁提供了信息,而经济预测则影响了利率的制定。这些预测通常依赖于人类专家的仔细判断,他们必须考虑来自各种来源的数据。由于人工智能系统能够处理大量的数据,它们在这个领域有可能非常有用。 为此,ML Safety举办了一个关于AI预测的竞赛,比赛的目的是建立一个机器学习模型,做出准确和校准的预测。

2022/10/12 11:37:361,103
扩散模型是如何工作的:从0开始的数学原理——How diffusion models work: the math from scratch

扩散模型是如何工作的:从0开始的数学原理——How diffusion models work: the math from scratch

随着DALL·E2的发布,大家发现Text-to-Image居然可以取得如此好的效果。也让diffusion模型变得非常受欢迎。扩散模型虽然火热,但是背后的数学原理可能很多人也不太了解。这篇博客不仅介绍了扩散模型背后的数学原理,也讲述了如何训练扩散模型以及提高扩散模型训练效率的种种技巧,十分值得大家钻研。

2022/10/05 17:46:248,776
12倍推理速度提升!Meta AI开源全新的AI推理引擎AITemplate

12倍推理速度提升!Meta AI开源全新的AI推理引擎AITemplate

为了提高AI模型的推理速度,降低在不同GPU硬件部署的成本,Meta AI研究人员在昨天发布了一个全新的AI推理引擎AITemplate(AIT),该引擎是一个Python框架,它在各种广泛使用的人工智能模型(如卷积神经网络、变换器和扩散器)上提供接近硬件原生的Tensor Core(英伟达GPU)和Matrix Core(AMD GPU)性能。

2022/10/04 13:28:272,921
缺少有标注的数据集吗?福音来了——HuggingFace发布few-shot神器SetFit

缺少有标注的数据集吗?福音来了——HuggingFace发布few-shot神器SetFit

少量标记的学习(Few-shot learning)是一种在较少标注数据集中进行模型训练的一种学习方法。为了解决大量标注数据难以获取的情况,利用预训练模型,在少量标记的数据中进行微调是一种新的帮助我们进行模型训练的方法。而就在昨天,Hugging Face发布了一个新的语句transformers(Sentence Transformers)框架,可以针对少量标记数据进行模型微调以获取很好的效果。

强化学习的数学基础之马尔可夫链(Markov Chain)

强化学习的数学基础之马尔可夫链(Markov Chain)

马尔可夫链(Markov Chain)是由马尔可夫性质推导出来的一种重要的概率模型。马尔科夫链是一种离散时间的随机过程,作为现实世界的统计模型,有很多应用。在热力学、统计力学、排队理论、金融领域等都有重要的应用价值。 作为一种离散时间的随机过程,与其对应的模型是马尔可夫过程(Markov Process),这是一种连续时间随机过程的模型。本节将主要介绍马尔科夫链。

强化学习进入分布式时代——DeepMind分布式强化学习框架ACME发布

强化学习进入分布式时代——DeepMind分布式强化学习框架ACME发布

深度强化学习(RL)导致了许多最近的和突破性的进展。然而,强化学习的实施并不容易,与使深度学习拥有PyTorch这样简单的框架支持不同,强化学习的训练缺少强有力的工具支撑。为了解决这些问题,DeepMind发布了Acme,一个用于构建新的RL算法的框架,该框架是专门为实现代理而设计的

2022/09/24 20:58:031,713
谷歌官方高性能大规模高维数据处理库TensorStore发布!

谷歌官方高性能大规模高维数据处理库TensorStore发布!

今天Google发布了TensorStore,这是一个开源的C++和Python软件库,设计用于存储和操作大规模n维数据。TensorStore已经被用来解决科学计算中的关键工程挑战(例如,管理和处理神经科学中的大型数据集,如石油级的三维电子显微镜数据和神经元活动的 "4d "视频)。TensorStore还被用于创建大规模的机器学习模型,如PaLM,解决了分布式训练期间管理模型参数(检查点)的问题。

2022/09/24 10:15:501,721