Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

7种交叉验证（Cross-validation）技术简介（附代码示例）

交叉验证是一种用于估计机器学习模型性能的统计方法。它是一种评估统计分析结果如何推广到独立数据集的方法。简单来说，就是将数据集分成不同的部分，然后某些部分训练，某些部分测试，某些部分验证，这样可以最大程度避免过拟合以及测试模型在陌生数据集的性能。

2021/11/21 22:24:386,321

#交叉验证 #机器学习

计算机视觉领域的六大任务简介

计算机视觉与自然语言处理是近几年人工智能领域进步最快以及应用最为成熟的两个方向。计算机视觉里面任务涉及面广，有很多细分领域，本文将对计算机视觉领域中比较常见的六种任务进行总结并同时展示以下相关任务的一些成绩。

2021/11/21 21:29:203,308

#CV #计算机视觉

元宇宙企业Roblox究竟是一家什么样的企业

美国有一家上市企业，叫做Roblox，号称是元宇宙龙头企业，被市场炒的火热。这家企业到底是什么样的业务，可以被认为是一家纯正的元宇宙企业。本文根据我收集的资料，为大家介绍一下。

2021/11/19 23:05:243,921

#元宇宙 #初创企业

使用kaggle房价预测的实例说明预测算法中OneHotEncoder、LabelEncoder与OrdinalEncoder的使用及其差异

对于分类特征的处理，sklearn中常见的方法有两种，一种是OneHotEncoder，另一种很多人说是LabelEncoder，其实不对。sklearn中，还有一个OrdinalEncoder，二者似乎一样，但其实并不相同，差别很大。本文将用Kaggle的房价预测的实例来描述如何这些差异以及不同处理对预测算法的影响。

2021/11/19 00:37:562,614

#kaggle #sklearn

pandas的get_dummies方法在机器学习中的应用及其陷阱

pandas.get_dummies是pandas中一种非常高效的方法。它最主要的作用是可以将分类变量转变成dummy变量，也就是虚拟变量。这篇博客将简要的介绍一下pandas.get_dummies()方法，并描述其在机器学习中的应用的一些注意事项。

2021/11/17 22:33:1412,737

#pandas #python

计算机视觉的五个趋势

这是一篇来自Sayak Paul的预测，这个哥们长期混迹于各个开源社区，积极参与各大公司的开发者大会。目前在一家初创企业工作，简历非常丰富，非常积极在社区推广自己。但是不管怎么说，他在计算机视觉领域也是一直在一线工作。他对未来计算机视觉的发展方向有五个预测，虽然不一定准确，但是我们可以借助这个进行思考。

2021/11/15 23:17:101,799

#CV #计算机视觉

几幅图解释为什么Netflix要进军游戏行业

Netflix是一家网络视频服务公司，国内的爱奇艺、腾讯视频都与此类似。前几年大火的《纸牌屋》也就是这家公司提供的。当时最热吵的就是说Netflix凭借大数据选择的剧本形式与演员，让搞数据科学的人风光了好一阵。最近很火的《鱿鱼游戏》也是在Netflix全球独家播出。那么，网络视频搞得这么火热的Netflix为啥要开始搞游戏呢？这里有几个统计数据图可以解释Netflix这样做的原因。

2021/11/13 15:54:581,290

#数据解读

Python入门的基本概念之包管理——pip与conda的简介对比

对于刚接触使用Python的同学来说，Python强大的生态与优秀的开源工具应该印象十分深刻。同时对于一些已经在使用Python解决问题的童鞋来说，使用pip来安装一些别人提供的工具应该已经熟悉了。当然，也有一些同学应该也听说可以使用conda来安装一些第三方的开源包。那么，python的包管理工具pip是一个什么样的东西？conda作为一个替代者或者补充，与pip有什么区别，二者分布适合什么情况下使用呢？本文将根据我的个人经验与观点为大家做一个简单的说明。

2021/11/13 15:18:082,688

#conda #pip

人工智能颠覆影响者营销的八种方式

影响者营销将是极好的机会，可以使你的形象更加完善，并接触到新的受众，是一个人性化的宏伟机会？的确如此。它是否充满了影响者和品牌宁愿不管理的问题？同样地，是的。

2021/11/11 09:13:441,385

#AI应用

吴恩达的LandingAI究竟是一家什么样的创业公司

吴恩达是人工智能领域非常著名的人物。2011年在谷歌创建的谷歌大脑项目，震惊了全世界。2014年他加入百度负责百度大脑计划，并于2017年离职。离职之后他创建了人工智能公司LandingAI，并担任首席执行官。昨天吴恩达宣布他新成立的这家公司已经募集到5,700万美金。本文主要简单介绍这家公司的业务。

2021/11/10 21:22:462,531

#人工智能 #企业简介

人工智能初创企业Hugging Face是什么样的企业——HuggingFace简介

Hugging Face是一家非常活跃的人工智能创业公司。它拥有一个非常强大并且活跃的人工智能社区。有超过5000多家机构都在Hugging Face的社区发布内容，包括Google AI、Facebook AI、微软等。自从2016年成立以来，这家企业经历了5轮融资，总共募集了6000万美金。本文将简要介绍这家企业相关的信息。

2021/11/10 21:14:5913,219

#人工智能 #企业简介

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展的很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

2021/11/07 22:31:253,533

#AI系统 #算法偏差

目前正在举办的机器学习相关的比赛

机器学习相关的竞赛为大家学习使用算法提供了一个非常好的平台和机会。既能检验大家学习的算法的实际应用情况，也可以帮助我们学习到很多有用的技巧。很多竞赛也都产生了优秀的算法思想与经验。所以积极参加比赛是一种非常重要的学习方式。本文总结目前正在举办的比赛，各位可以根据自己的情况参与。

2021/11/04 19:05:192,563

#机器学习 #竞赛

深度学习中为什么要使用Batch Normalization

Batch Normalization（BN）是一种深度学习的layer（层）。它可以帮助神经网络模型加速训练，并同时使得模型变得更加稳定。尽管BN的效果很好，但是它的原理却依然没有十分清晰。本文总结一些相关的讨论，来帮助我们理解BN背后的原理。

2021/11/03 21:05:271,995

#BatchNormalization #深度学习

最全面的Kaggle解决方案和创意清单

这是一位热心网友（faridrashidi）收集的Kaggle竞赛的解决方案。这是在过去的Kaggle竞赛中表现最好的选手所分享的几乎所有可用的解决方案和想法的列表。一旦有新的比赛结束，这个列表就会更新。

2021/11/02 21:45:521,759

#kaggle

全球最大（最挣钱）的十大开源企业

自从Hadoop生态发展以来，基于开源软件提供服务的盈利公司也越来越多。大家这才发现，开源不仅不会削弱企业竞争力，还可以带来生态，增强企业的竞争力。本文总结全球最挣钱的十大开源公司供大家参考。

2021/11/02 21:34:153,585

#开源

2021年适合初学者的10个最佳机器学习在线课程

机器学习是这几年很热门的学习和工作的方向。但是机器学习相关算法的入门却并不容易。本文参考自MLTUT的博文，列举了2021年适合初学者的十个最佳机器学习网络课程供大家学习参考。

2021/10/27 22:04:295,168

#机器学习 #课程

数据科学和机器学习面试题及其答案

这是来自Kaggle上网友的分享，是关于数据科学和机器学习的面试题集锦。都是英文的题目，不过应该不影响，大家也可以根据题目自己去寻找答案，我看了一下，并不是所有的答案都非常准确，但问题的确可以帮助我们思考总结。

2021/10/26 23:22:141,776

#工作 #面试

最流行的用于预测的机器学习算法简介及其优缺点说明

预测问题一直是机器学习领域最重要的问题之一。很多算法包括回归、决策树等都是用来解决预测的常用算法。预测问题的核心是基于已有的有标签的数据来判断新数据的标签。一般来说，根据预测标签是离散的还是连续的可以分成分类问题和回归问题。注意，本篇博客主要是快速回顾描述各个模型的优缺点，因此不会对模型有很深的介绍。

2021/10/26 23:03:037,013

#机器学习 #预测问题

隐马尔科夫模型及其在NLP中的应用指南

隐马尔可夫模型（HMM）是一种统计模型，也用于机器学习。它可以用来描述取决于内部因素的可观察事件的演变，而这些因素是无法直接观察到的。这是一类概率图形模型，允许我们从一组观察到的变量中预测一串未知的变量。在这篇文章中，我们将详细讨论隐马尔可夫模型。我们将了解它可以使用的背景，我们也将讨论它的不同应用。我们还将讨论HMM在PoS标签中的使用和python的实现。文章中所涉及的主要内容如下。

2021/10/17 15:53:453,247

#HMM #机器学习

构建人工智能应用的开发者指南

微软在去年4月份的时候推出了一个构建虚拟助手的指南：《构建人工智能应用的开发者指南·第二版》。这份报告帮助我们借助微软的工具构建一个虚拟助手，本文将简要描述一下这份报告，文末有相关资源下载。

2021/10/17 15:28:091,852

#人工智能 #虚拟助手

关于机器学习理论和实践的信息图

这是推特上Ternium的CIO发的一个图，关于机器学习理论和实践概念的信息图。这个图概括了机器学习实践流程的相关概念，简洁明了。对于入门的同学有很好的总结作用。

2021/10/17 10:50:541,779

#基础知识 #机器学习

Python包中init.py文件的作用和用法

在Python工程中，我们经常可以看到带有“\_\_init\_\_.py”文件的目录，在PyCharm中，带有这个文件的目录被认为是Python的包目录，与目录的图标有不一样的显示。那么这个文件的作用是什么，我们平时如何使用呢，这篇文章将解释这个问题。

2021/10/16 21:42:552,211

#python #编程

Python3.10版本的结构模式匹配（structural pattern matching）简介

Python最新正式版本3.10在10月4日已经发布。这个版本从2020年5月开始开发，经历差不多一年半的时间终于正式发布。当然每一个新版本都有很多新功能。我们将持续关注新功能，在这篇文章中，我们将简述3.10中新功能中的语法——结构模式匹配（structural pattern matching）。

2021/10/14 22:45:202,075

#python #structuralpatternmatching