加载中...

Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

Stable Diffusion2.1发布！

刚刚，StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期，2.1版本就发布了，2.1版本有诸多改进功能。

2022/12/08 00:33:512,767

#StabilityAI #StableDiffusion

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

2018/04/20 22:13:522,770

#源码

2023年9月份各大企业拥有的A100的GPU显卡数量

在高性能计算（HPC）、人工智能（AI）、和数据分析等领域，图形处理器（GPUs）正在发挥越来越重要的作用。其中，NVIDIA的 A100尤为引人注目。这是英伟达最强大的显卡处理器，也是当前使用最广泛大模型训练用的显卡。本文主要是各大企业最新的2023年9月份拥有的显卡数量统计。

2023/09/16 14:08:582,770

#A100 #显卡

对比关系生成模型(Comparative Relation Generative Model)

2018/03/09 09:00:212,771

#生成模型

来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

在今年的Microsoft Build 2023大会上，来自OpenAI的研究员Andrej Karpathy在5月24日的一场汇报中用了40分钟讲解了ChatGPT是如何被训练的，其中包含了训练一个能支持与用户对话的GPT的全流程以及涉及到的一些技术。信息含量丰富，本文根据这份演讲总结。

2025/12/21 17:20:242,778

#LLM #RLHF

是否需要使用NumPy代替Pandas处理数据以提高性能？

Pandas和NumPy是Python数据科学领域中最基础的两个库，他们都可以读取大量的数据并对数据做计算等处理。有很多的操作他们都能做。那么，这两个Python库在数据处理的性能上有什么差别呢？今天在Reddit上看到一个有意思的讨论和大家分享一下。

2021/12/11 19:50:592,785

#numpy #pandas

HttpClient的使用方法案例

HttpClient的使用方法案例爬虫

2016-04-06 21:32:332,792

#Java #网络爬虫

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

编程大模型是大语言模型的一个非常重要的应用。刚刚，清华大学系创业企业智谱AI开源了最新的一个编程大模型，CodeGeeX2-6B。这是基于ChatGLM2-6B微调的针对编程领域的大模型。

2023/07/25 15:26:412,792

#ChatGLM2-6B #CodeGeeX

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

ChatGLM系列是智谱AI发布的一系列大语言模型，因为其优秀的性能和良好的开源协议，在国产大模型和全球大模型领域都有很高的知名度。今天，智谱AI开源其第三代基座大语言模型ChatGLM3-6B，官方说明该模型的性能较前一代大幅提升，是10B以下最强基础大模型！

2023/10/27 17:13:142,808

#ChatGLM #ChatGLM3

大型语言模型的新扩展规律（DeepMind新论文）——Training Compute-Optimal Large Language Models

3月29日，DeepMind发表了一篇论文，"Training Compute-Optimal Large Language Models"，表明基本上每个人--OpenAI、DeepMind、微软等--都在用极不理想的计算方式训练大型语言模型。论文认为这些模型对计算的使用一直处于非常不理想的状态。并提出了新的模型缩放规律。

2022/04/04 13:14:092,814

#deepmind #论文快讯

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

语音识别在实际应用中有非常多的应用。早先，OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类，也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper，它比Whisper-v2速度快6倍，参数小49%，而实际效果几乎没有区别。

2023/11/02 12:44:252,830

#Distil-Whisper #HuggingFace

【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

腾讯AI Lab去年四月成立，今年是首次参加ICML，共计四篇文章被录取，位居国内企业前列。此次团队由机器学习和大数据领域的专家、腾讯AI Lab主任张潼博士带领到场交流学习，张潼博士还担任了本届ICML领域主席。在本次130人的主席团队中，华人不超过10位，内地仅有腾讯AI Lab、清华大学和微软研究院三家机构。

2017/11/04 09:36:192,842

#学术 #科研

全球最大10个的SaaS企业简介

现代软件企业中，SaaS服务提供商是最值得注意的企业。因为SaaS行业规模大利润高，也是最有前景的一类企业。但是，国内市场因为很多因素导致SaaS的规模和空间都比较低。本文梳理一下全球最大的10个SaaS服务提供商，供大家参考。

2021/12/08 22:58:162,851

#云计算 #创业企业

常见的正则表达式写法总结

正则表达式非常有用，非常强大，但也并不容易写，在这里我们总结一些常用的正则表达式写法

2017/11/18 09:20:502,854

#java #正则表达式

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

在深度学习训练中，由于数据太大，现在的训练一般是按照一个批次的数据进行训练。批次大小（batch size）的设置在很多论文或者教程中都提示要设置为$2^n$，例如16、32等，这样可能会在现有的硬件中获得更好的性能。但是，目前似乎没有人进行过实际的测试，例如32的batch size与33的batch size性能到底有多大差别？德国的Thomas Bierhance做了一系列实验，以验证批次大小设置为2的幂次方是不是真的可以加速。

2022/07/05 22:28:322,862

#深度学习 #训练技术

LFDMM源码剖析(融入词向量的概率图模型)

源码

2018/03/27 14:48:372,864

#源码

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

昨天，HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型：Falcon-40B，引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日，Falcon-40B模型（400亿参数）在推理、理解等4项Open LLM Leaderloard任务上评价得分第一，超过了之前最强大的LLaMA-65B模型。

2023/05/27 22:11:322,871

#Falcon-40B #LLM

《Effective Java 第三版》笔记之七消除过期的对象引用

本文是Effective Java第三版笔记的第七个之消除过期的对象引用，Item 7: Eliminate obsolete object references

2018/09/28 15:44:232,886

#effectivejava #java

强烈推荐斯坦福大学的深度学习示意图网站

CS 230 ― Deep Learning是斯坦福大学视觉实验室（Stanford Vision Lab）的Shervine Amidi老师开设的深度学习课程，他在课程网站上挂了一个关于深度学习示意图的网站，这里面包含了各种深度学习相关概念的示意图和动图，十分简单明了。

2022/04/20 23:19:192,892

#深度学习

网络爬虫原理

网络爬虫指按照一定的规则（模拟人工登录网页的方式），自动抓取网络上的程序。

2016-09-08 22:03:062,897

#java #网络爬虫

加载中...

Stable Diffusion2.1发布！

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

2023年9月份各大企业拥有的A100的GPU显卡数量

python中Scrapy的安装详细过程

对比关系生成模型(Comparative Relation Generative Model)

来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

是否需要使用NumPy代替Pandas处理数据以提高性能？

!important属性和权重

HttpClient的使用方法案例

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

大型语言模型的新扩展规律（DeepMind新论文）——Training Compute-Optimal Large Language Models

Jsoup使用演示

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

块级元素和行内元素以及转换

全球最大10个的SaaS企业简介

常见的正则表达式写法总结

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

LFDMM源码剖析(融入词向量的概率图模型)

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

《Effective Java 第三版》笔记之七 消除过期的对象引用

强烈推荐斯坦福大学的深度学习示意图网站

网络爬虫原理

Stable Diffusion2.1发布！

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

2023年9月份各大企业拥有的A100的GPU显卡数量

python中Scrapy的安装详细过程

对比关系生成模型(Comparative Relation Generative Model)

来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解

是否需要使用NumPy代替Pandas处理数据以提高性能？

!important属性和权重

HttpClient的使用方法案例

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

大型语言模型的新扩展规律（DeepMind新论文）——Training Compute-Optimal Large Language Models

Jsoup使用演示

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

块级元素和行内元素以及转换

全球最大10个的SaaS企业简介

常见的正则表达式写法总结

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

LFDMM源码剖析(融入词向量的概率图模型)

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

《Effective Java 第三版》笔记之七 消除过期的对象引用

强烈推荐斯坦福大学的深度学习示意图网站

网络爬虫原理

《Effective Java 第三版》笔记之七消除过期的对象引用

《Effective Java 第三版》笔记之七消除过期的对象引用