Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

HuggingFace官方宣布将对GGUF格式的大模型文件增加更多的支持，未来可以直接在HF上查看GGUF文件的元数据信息！

当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。因此，大模型预训练结果文件的保存格式对于模型的使用和生态的发展来说极其重要。昨天HuggingFace官方宣布将推动GGUF格式的大模型文件在HuggingFace上的使用。

2024/03/16 21:34:142,245

#GGML #GGUF

Python包中init.py文件的作用和用法

在Python工程中，我们经常可以看到带有“\_\_init\_\_.py”文件的目录，在PyCharm中，带有这个文件的目录被认为是Python的包目录，与目录的图标有不一样的显示。那么这个文件的作用是什么，我们平时如何使用呢，这篇文章将解释这个问题。

2021/10/16 21:42:552,233

#python #编程

没有显卡也没关系！基于Google Colab免费GPU额度部署Stable Diffusion XL模型，可以生成4K的图！

Stable Diffusion XL是StabilityAI最新的开源模型。是目前业界流行的免费开源图像生成大模型。2023年4月份StabilityAI就宣布了SD XL的存在并在2023年7月26日开源。SD XL相比较此前的模型速度更快、提示词更短、生成的图像更加真实。但是，大多数人可能并没有实际运行过，感受过这个模型的魅力。在这篇博客中，我们给大家展示如何利用Google Colab的免费GPU资源，部署一个SD XL模型，并通过prompt生成一些图片。

2023/08/17 23:30:442,225

#StableDiffusionXL #StableDiffusion教程

重磅！OpenAI发布GPT-4o mini，这是GPT-3.5的替代升级版，价格下降60%，但是更快更强！编程能力甚至超过GPT-4！

就在刚才，OpenAI官方宣布即将推出GPT-4o mini模型，这是一个成本很低的AI大模型，是GPT-3.5的替代版本。OpenAI官方说，该模型最大的特点是很便宜，但是能力更强，因此可以极大提高AI在不同领域的应用。

2024/07/19 03:02:562,213

#GPT-4 #GPT-4omini

来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

OpenAI发布的产品中，有2个产品可以用来将GPT当作一个类似AI Agent工具使用，同时支持接入自定义的接口和数据。那就是GPTs和Assistant API，前者可以在界面直接操作，后者则是一个API，两者功能接近，为了让大家更加清晰理解二者区别，OpenAI官方最近发布了二者的解释。

2023/12/08 08:51:112,177

#AssistantAPI #ChatGPT

gluon模型因Intert链接问题无法下载怎么办

gluon模型无法下载

2019/02/15 14:52:562,175

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

Gemma系列大模型是Google开源的一系列轻量级的大模型。就在刚才（2025年3月12日），Google开源了第三代Gemma系列大模型，共包含4个不同参数规模版本，第三代的Gemma 3系列是多模态大模型，即使是最小的10亿参数规模的Gemma 3-1B也支持多模态输入。

2025/03/12 22:50:222,156

#Gemini #Gemma3-27B

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

阿里巴巴刚刚开源了第三代千问大模型，Qwen3系列包含了8个不同参数规模的大模型，最大达到2350亿参数规模，最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本，即Qwen3可以根据输入问题的情况自动选择是否进行推理。

2025/04/29 08:59:572,147

#Qwen3-0.6B #Qwen3-30B-A3B

Git提交本地文件

Git操作记录

2020/03/20 09:33:302,147

#git #svn

缺少有标注的数据集吗？福音来了——HuggingFace发布few-shot神器SetFit

少量标记的学习（Few-shot learning）是一种在较少标注数据集中进行模型训练的一种学习方法。为了解决大量标注数据难以获取的情况，利用预训练模型，在少量标记的数据中进行微调是一种新的帮助我们进行模型训练的方法。而就在昨天，Hugging Face发布了一个新的语句transformers（Sentence Transformers）框架，可以针对少量标记数据进行模型微调以获取很好的效果。

2022/09/27 23:17:152,145

#few-shotlearning #sentencetransformers

关于padding

2018/10/08 21:16:212,141

#关于padding

input标签

2018/09/30 22:11:272,135

#input

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

异质表格数据是最常用的数据形式，对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上，深度神经网络已多次显示出优异的性能，因此被广泛采用。然而，它们在表格数据建模（推理或生成）方面的应用仍然具有高度挑战性。

2022/03/31 12:15:192,127

#论文快讯

关于border

2018/10/08 21:47:442,105

#关于border

Python3.10版本的结构模式匹配（structural pattern matching）简介

Python最新正式版本3.10在10月4日已经发布。这个版本从2020年5月开始开发，经历差不多一年半的时间终于正式发布。当然每一个新版本都有很多新功能。我们将持续关注新功能，在这篇文章中，我们将简述3.10中新功能中的语法——结构模式匹配（structural pattern matching）。

2021/10/14 22:45:202,105

#python #structuralpatternmatching

一个非常有趣的数据工程师小游戏

Firebolt开发了一个数据工程师的网页小游戏，带你体验数据分析的全流程。游戏里你扮演一个数据工程师，从数据收集开始，经历数据pipeline、数据入数据湖以及数据分析等，最终形成各种图表的结果。

2022/03/29 10:02:562,093

#好物推荐

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息，包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集，并未公开数据源。但是内容还是有一定参考性，大家自行判断。

2023/07/11 09:36:142,092

#GPT-4

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

OpenAI是全球最著名的人工智能研究机构，发布了许多著名的人工智能技术和成果，如大语言模型GPT系列、文本生成图片预训练模型DALL·E系列、语音识别模型Whisper系列等。由于这些模型在各自领域都有相当惊艳的表现，引起了全世界广泛的关注。

2022/12/09 23:13:302,084

#OpenAI

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

2025/08/11 16:54:152,070

#SWE-Bench #大模型编程能力

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

2024年10月22日，Anthropic发布了两个新模型：升级版的Claude 3.5 Sonnet和全新的Claude 3.5 Haiku。升级版的Claude 3.5 Sonnet在保持原有价格和速度的基础上，实现了全面性能提升，尤其在编码领域取得了显著进步。新推出的Claude 3.5 Haiku则以与Claude 3 Haiku相同的成本和类似的速度，在多个评测中达到了与Claude 3 Opus相当的性能水平。

2024/10/27 21:21:212,042

#Anthropic #Claude

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

开源大语言模型经过一年多的发展，终于有一个模型可以在权威榜单上击败GPT-4的较早的版本，这就是CohereAI企业开源的Command R+。这是一个开源但是不允许商用的模型，参数规模达到1040亿，也是目前为止开源参数规模最大的一个模型。

2024/04/09 20:35:232,041

#CohereAI #CommandR

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B？Qwen3-72B还会发布吗？NO！

Qwen3 是阿里于 2025 年 6 月开源的新一代大模型系列，共发布了 8 个不同参数规模的模型，覆盖从 6 亿到 2350 亿参数的范围，融合了稠密模型和 MoE 架构。值得注意的是，此次未包含此前广受关注的 Qwen-72B 稠密模型版本，阿里表示从 Qwen3 起，超过 30B 参数的模型将统一采用 MoE 架构以优化性能和效率。

2025/06/18 16:23:242,028

#Qwen #Qwen2.572B

Original AI Tech Blogs

css整体感知

HuggingFace官方宣布将对GGUF格式的大模型文件增加更多的支持，未来可以直接在HF上查看GGUF文件的元数据信息！

Python包中init.py文件的作用和用法

没有显卡也没关系！基于Google Colab免费GPU额度部署Stable Diffusion XL模型，可以生成4K的图！

重磅！OpenAI发布GPT-4o mini，这是GPT-3.5的替代升级版，价格下降60%，但是更快更强！编程能力甚至超过GPT-4！

来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

gluon模型因Intert链接问题无法下载怎么办

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

Git提交本地文件

缺少有标注的数据集吗？福音来了——HuggingFace发布few-shot神器SetFit

关于padding

input标签

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

推荐一个给新手的可视化的机器学习模型训练网站

关于border

Python3.10版本的结构模式匹配（structural pattern matching）简介

一个非常有趣的数据工程师小游戏

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B？Qwen3-72B还会发布吗？NO！

css整体感知

HuggingFace官方宣布将对GGUF格式的大模型文件增加更多的支持，未来可以直接在HF上查看GGUF文件的元数据信息！

Python包中__init__.py文件的作用和用法

没有显卡也没关系！基于Google Colab免费GPU额度部署Stable Diffusion XL模型，可以生成4K的图！

重磅！OpenAI发布GPT-4o mini，这是GPT-3.5的替代升级版，价格下降60%，但是更快更强！编程能力甚至超过GPT-4！

来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

gluon模型因Intert链接问题无法下载怎么办

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

Git提交本地文件

缺少有标注的数据集吗？福音来了——HuggingFace发布few-shot神器SetFit

关于padding

input标签

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

推荐一个给新手的可视化的机器学习模型训练网站

关于border

Python3.10版本的结构模式匹配（structural pattern matching）简介

一个非常有趣的数据工程师小游戏

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B？Qwen3-72B还会发布吗？NO！

Python包中init.py文件的作用和用法