说到数据科学和机器学习竞赛平台,第一个想到的肯定是全球最大的开发者社区Kaggle了。
上个月,Kaggle进行了第六次年度行业调研,以求全面了解当前数据科学和机器学习的研究状态。
Kaggle设计的调查问卷包括了43个问题,在调研了来自个国家的名受访者后,发布了最终调研报告!
随报告发布的还有一项数据分析竞赛,参赛者需要使用Kaggle提供的原始数据分析出一些有意思的结论或故事,总奖金为三万美元,冠军可得到一万美元奖励。
首先从从业人员群体角度来看,男女比例仍然相当不均衡,六年来仍然没有改善的趋势。
居住、工作在印度和日本的从业人员数量近年来逐步攀升。
在具体的编程实践上,Python和SQL仍然是两个最常用的语言,R语言的占比逐年下降,不过仍然排行第三。
在IDE的选择上,有超过50%的数据科学家选择使用VSCode,超过80%的人都在使用JupyterNotebook,而PyCharm和RStudio,MATLAB的市场份额丢得就有点惨了。
在选择Jupyternotebook的云服务时,Colab的使用量连年攀升,超越Kaggle内置的环境成为最受欢迎的云Jupyternotebook
报告中提出两个问题:
用户转向VSCode和JupyterNotebooks是否反映了一种新的趋势,即选择可以放在web浏览器内的IDE?你觉得什么是用户选择IDE的主要考虑因素?
为什么用户不愿意选择桌面端app了?
在机器学习工具包的选择上,Scikit-learn以其全面且优质的内置模型和数据集,成为最受欢迎的机器学习框架,超越TensorFlow,Keras,Xgboost,LightGBM,PyTorch等。
PyTorch的使用人数逐年稳步上升,TensorFlow则是略有下降,不过TensorFlow使用人数还是比PyTorch多出20%左右。
这就叫做PyTorch逐年上升难掩颓势,TensorFlow连年下降尽显王者风范。
在深度学习架构的选择上,Transformers模型逐年上升,超过60%的数据科学家都在用。
对此,报告中提出两个问题:
你觉得scikit-learn流行的原因是因为它太全了,能覆盖的用例更多吗?
表格数据在商业分析中有多重要?提升树(boostedtree)和神经网络之间在表格分析中有绝对的赢家吗?为什么提升树在Kaggle中占据主导地位?
在云计算的调研中,所有的主流云计算服务提供商,包括亚马逊AWS,谷歌GCP和微软Azure,都比上一年的业绩有所提升。
一些专用的计算硬件如TPU逐渐受到Kaggle用户的