Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

重磅Llama3即将发布！目前已知有80亿和700亿参数两个版本，其中Llama3-8B-Instruct已经上架微软云服务市场！

Llama系列是MetaAI开源的大语言模型，是全球开源大模型中最重要的力量之一。第一代的Llama系列模型不允许商用，第二代模型则放松了范围，允许商用。而Llama系列模型因为优秀的品质，也是许多开源模型的基座。而今天Llama3即将发布。

2024/04/18 23:21:391,066

#Llama3-70B #Llama3-8B-Instruct

让大语言模型为文本处理提提速：Scikit-learn与LLM的合体Scikit-LLM开源项目发布

虽然LLM在很多任务上很好用，但是实际应用中我们常见的文本分类、文本标注等工作目前却依然缺少一个可以利用LLM能力的好方法。LLM的强大并没有在工程落地上比肩传统的机器学习处理框架。上周，一个叫Scikit-LLM新的开源项目发布，将传统优秀的Scikit-learn框架与LLM结合，带来了LLM落地的新方法。

2023/05/24 23:19:401,066

#LLM #Scikit-Learn

StabilityAI发布实时文本生成图片大模型SDXL Turbo——生成一张图片可能只需要0.207秒

StabilityAI是当前最流行的开源文本生成图像大模型Stable Diffusion背后的公司。这家公司在文本生成图片和文本生成视频方面开源了诸多的大模型。其中，Stable Diffusion是目前使用人数最多的开源文本生成图像大模型。就在刚才，StabilityAI又发布了一个全新的实时的文本生成图像大模型Stable Diffusion XL Turbo，这个最新的模型在A100上生成一张图片只需要0.207秒！

2023/11/29 09:36:491,067

#SDXLTurbo #StabilityAI

生成式AI平台的玩家都有哪些？

近几年人工智能的发展已经让大家感受到AI算法不再是实验室的小玩具，它对社会和生活的影响已经在逐步显现。仅几年的AI模型如ChatGPT、DALL·E2、StableDiffusion等都是生成式模型，即基于无标注数据训练的可以根据输入观测数据的模型。而生成式AI平台可能是未来最重要的一种平台能力。本文是由Matt Bornstein, Guido Appenzeller, and Martin Casado等人发布的介绍当前生成式AI平台的相关企业。

2023/03/01 22:55:071,070

#AI

评测结果超GPT-5 mini和Claude 4 Sonnet，阿里再发开源版本Qwen3-VL模型：手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

就在今日，阿里巴巴Qwen团队重磅推出Qwen3-VL-2B和Qwen3-VL-32B两款视觉语言模型，这些dense架构的创新之作，将多模态AI的强大能力压缩进更紧凑的框架中，显著降低了部署门槛。作为Qwen3系列的最新扩展，它们在保持顶级性能的同时，支持从边缘设备到云端的无缝应用——想象一下，一款手机App就能实时分析2小时视频，或从模糊手写笔记中提取精确信息。这不仅仅是参数缩减，更是AI普惠化的关键一步，帮助开发者以更低的成本实现视觉智能的突破。

2025/10/22 21:55:521,071

#Qwen3-VL-2B #Qwen3-VL-32B

Pandas用法小册子

2022/04/19 09:50:271,075

如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

本周，谷歌的研究人员在arXiv上提交了一个非常有意思的论文，其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。

2022/05/12 23:15:051,077

#工程实践 #机器翻译系统

2023年度巨献，一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

2022年11月底，ChatGPT横空出世，全球都被这样一个“好像”有智能的产品吸引力。随后，工业界、科研机构开始疯狂投入大模型。在2023年，这个被称为大模型元年的年份，有很多令人瞩目的AI产品与模型发布。2023年，DataLearner收集了大量的大模型，并发布了很多大模型相关的技术博客，在即将结束的2023年，我们以这个『2023年最令人瞩目的AI产品』结束本年的技术分享。

2023/12/29 13:02:561,082

#2023大模型 #大模型总结

Minion Skills: Claude Skills的开源实现

本文介绍了 Claude 最近推出的 Skills 系统，以及作者在 Minion 框架中实现的一个完全开源的版本。Skills 的核心思路是让 AI Agent 在需要时再加载对应的专业能力，而不是一开始就把所有工具和知识都塞进上下文，从而缓解上下文窗口有限、成本高、响应慢的问题。

2025/12/17 22:06:311,083

#Agent技巧 #ClaudeSkills

ChatGPT 3.5只有200亿规模的参数？最新微软的论文暴漏OpenAI的ChatGPT的参数规模远低于1750亿！

2022年11月底发布的ChatGPT是基于OpenAI的GPT-3优化得到的可以进行对话的一个产品。直到今年更新到3.5和4之后，官方分为两个产品服务，其中ChatGPT 3.5是基于gpt-3.5-turbo打造，免费试用。因此，几乎所有人都自然认为这是一个与GPT-3具有同等规模参数的大模型，也就是说有1750亿参数规模。但是，在10月26日微软公布的CodeFusion论文的对比中，大家发现，微软的表格里面写的ChatGPT 3.5只有200亿参数规模。

2023/10/30 21:29:541,084

#ChatGPT #GPT-3.5

即将发布的装备了ChatGPT模型的新版bing都有哪些功能？

今天微软宣布，新版本的Bing将全线接入ChatGPT，试图领先谷歌一步。这篇博客将总结一下带了ChatGPT的新版本Bing将有哪些新功能！

2023/02/09 00:14:531,084

#Bing #ChatGPT

Google开源CodeGemma编程大模型和RNN架构大模型RecurrentGemma，同等参数规模最强编程大模型以及更快的大模型

Gemma系列是谷歌开源的与Gemini同源的小规模参数版本的大语言模型，此前只有70亿参数和20亿参数的Gemma大语言模型。而现在，Google又开源了2个系列的新的大模型：一个是编程大模型CodeGemma系列，一个是基于RNN架构新型大模型RecurrentGemma。

2024/04/10 00:05:261,085

#CodeGemma #Gemma

0基础基于Node.js创建第一个Vue的web项目

最近开始学习新的前端技术。以前开发网站直接使用jQuery+Bootstrap组合，感觉非常容易和方便。但是，现在前端貌似都开始转向基于构建的方式去开发。由于初学者进入一个项目看很多内容也不如上手启动一个项目感受好，本文抛弃原理，直接教大家上手创建一个vue项目。

2022/06/08 22:05:311,088

#vue #前端构建

AA-LCR：大模型长上下文推理能力的权威评测基准（Artificial Analysis Long Context Reasoning）是什么？包含哪些任务？如何测试大模型超长上下文能力？

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

2026/05/03 14:30:581,093

#大模型评测 #大模型评测基准

ToolTalk：微软发布的一个用以评测大语言模型工具使用能力的评测工具和评测数据集

为了更好地评估大语言模型的工具使用能力，微软的研究人员提出了ToolTalk Benchmark基准测试工具，可以帮助我们更加简单地理解大语言模型在工具使用方面的水准。ToolTalk旨在评估大型语言模型（LLMs）在对话环境中使用工具的能力。这些工具可以是搜索引擎、计算器或Web API等，它们能够帮助LLMs访问私有或最新的信息，并代表用户执行操作。

2024/04/05 21:42:101,096

#RAG #ToolTalk

DeepGraph Library（DGL）发布了0.81版本

2022/04/19 16:03:311,097

#GNN #图神经网络

重磅！谷歌发布 Nano Banana Pro（Gemini 3 Pro Image）：图像生成质量大幅提升！一次可以支持14张图片合成，5个对象保持一致！图像生成正式进入“理解驱动”阶段！

就在刚才，谷歌推出了 Nano Banana Pro（Gemini 3 Pro Image）。这是基于 Gemini 3 Pro 打造的专业级图像生成与编辑模型，相比几个月前的 Nano Banana，这次升级几乎重构了谷歌图像生成能力的上限。从文本渲染、多图一致性，到世界知识、摄影级控制和信息可视化，Nano Banana Pro 在多个维度显著拉开了与上一代、乃至整个行业同类产品的差距。

2025/11/21 00:52:531,101

#Google #NanoBanana

马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！

Grok系列是马斯克旗下的人工智能企业xAI发布的大语言模型，在推特上给大家使用。第一个版本，Grok-1前端时间开源，效果一般。就在刚才，xAI宣布他们开始内测Grok-1.5，即将全面商用！

2024/03/29 09:21:541,101

#Grok-1.5 #Grok-1

探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

2026/05/03 14:20:041,105

#OSWorld-Verified #OSWorld

EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结：来自688篇参考文献与业界实践

前天，EleutherAI、MetaAI、StabilityAI、伦敦大学等研究人员合作提交了一个关于大语言模型（Large Language Model，LLM）的挑战和应用的论文综述，引用了688篇参考文献总结了当前LLM的主要挑战和应用方向。

2023/07/22 23:13:131,108

#LLM #论文

Context Arena：长上下文大模型评测基准介绍

Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集，提供交互式排行榜，用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现，避免单纯依赖训练数据记忆。

2025/12/27 10:42:001,109

#ContextArena #大模型评测

OpenAI Harmony 消息格式技术详解：一种为高级 Agent 设计的精细化消息格式

近日，OpenAI在发布其开源模型gpt-oss-120b和gpt-oss-20b的同时，也推出了一种专为这些模型设计的全新消息格式——Harmony。对于希望在自有解决方案中充分利用这些开源模型的开发者而言，理解Harmony至关重要。本文将以客观的第三方视角，详细解析Harmony格式的设计理念与技术细节。

2025/08/07 17:17:381,114

#OpenAIHarmony消息格式 #大模型技术

Google Gemini Pro多模态接口开放！DataLearnerAI第一时间测试Gemini Pro多模态能力，比想象惊喜！

Google Gemini是Google最新发布的大模型系列。这是一系列的多模态的大模型，谷歌官方宣布在各项评分中Gemini超过了GPT-4V。但是，谷歌的宣传视频过于夸张被很多人质疑造假嫌疑，导致被全网嘲讽。而今天，Google官方的Gemini多模态接口开放，DataLearnerAI第一时间申请测试，结果让人惊喜。

2023/12/14 01:07:541,115

#Gemini #Gemini多模态

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

2024/03/05 23:21:281,116

#Anthropic #Claude3-Opus