Kaggle 2022调查报告出炉!看看过去一年数据科学家都在干啥!
Kaggle 2022调查报告出炉!看看过去一年数据科学家都在干啥
kaggle是各类机器学习竞赛的著名平台,上面聚集了大量的机器学习比赛和数据集,也有大量的数据处理相关专业人员。每年官方都会向平台用户发放问卷,调查数据科学家的工具使用和平台采用情况。今年的调查结果也在两天前发出,有很多有意思的结论。
本次调查对象将近2万4千人,来自全球173个国家和地区,共43个问题。有几个结论很有意思。
python与SQL是数据科学领域使用最多的编程语言
从历年结果看,Python与SQL的使用都保持很高水平且有所增长。同时,R语言的使用逐年下降,而且目前没有止跌趋势。照这个趋势发展,R也许会被抛弃。而C语言和Java在过去几年有所增长后去年使用比例也大幅下降,不知道是不是python性能提升的原因。
VSCode使用大幅增长,JupyterNotebook保持高位
VSCode一经问世就好评如潮,这几年使用者一直增长。JupyterNotebook使用比例也很高。与此同时,PyCharm保持稳定。而RStudio与MATLAB使用者变少。前者因为R语言势弱,后者估计因为收费且Oython生态太好可部分替代。而Colab notebook是最受欢迎且强势增长的云notebook环境。Colab是谷歌云提供的服务,可免费使用GPU。
Scikt-learn依然最受欢,Tensorflow势头减弱
从大家使用的机器学习框架来看,Scikt-learn依然是最受欢迎的框架,且去年大使用比例增加。小众一点的框架如Pytorch、Lightning的使用比例持续增长。但是,近几年,Tensorflow/keras的使用比例降低。看样子就算是强大的社区与丰富的生态也比不上“难用”带给大家的痛苦啊!有意思的是Xgboost这种工具去年使用人数一改颓势,可能是大家发现表格数据的问题还是原来的好用?哈哈哈哈。这里还有一个比较有意思的事transformer架构在过去四年的使用比例一直在持续增长。说明transformer的确有效!
以上就是这次调查的总结。当然这里的内容还有很多,原始数据大家可以去官方围观:https://www.kaggle.com/kaggle-survey-2022
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
