聆听德国作曲家AchimReichel于年发行的单曲《alohahejahe》,意思是加油..加油...
注:本推送内容来自陈硕与王宣艺,,《机器学习在社会科学中的应用:回顾及展望》,复旦大学经济学院工作论文。
我们都希望找到那些彩色的小石子儿
注:机器学习领域的文献日进千里,这篇综述的文献截止时间是今年中能够在网络上检索到的工作论文。此外,这篇论文的重点是介绍那些在社会科学领域已被广泛应用或可能具有较大潜力的机器学习技术,而不是机器学习技术本身的发展前沿。
这是论文大焖锅的一篇推送:
摘要:随着数据的可得和计算机软硬件的发展,机器学习技术在业界及自然科学领域已经得到了广泛地应用。在社会科学领域,该技术使用虽然起步较晚,但发展也非常迅速。本文目的旨在系统介绍机器学习在社会科学中的应用。在简单介绍定义,在业界及自然科学领域的应用后,我们将从数据生成、预测以及因果识别(DID,RD和IV)三方面详细介绍机器学习在社会科学中的应用。局限于社科因果识别方法论的成熟及样本量限制,我们认为机器学习虽然拓展了社会科学研究的边界,但并不会颠覆现有研究范式。最后,本文从学界不平等及可复制性等方面讨论了该技术在应用过程中可能带来的问题。
关键词:机器学习数据生成预测因果识别
引言
机器学习(MachineLearning,简称ML)指的是从数据中识别出规律并以此完成预测、分类及聚类等任务的算法总称。[1]随着数据的可得及计算机处理能力的提高,该技术在业界及自然科学领域已经得到广泛地应用。在社会科学领域,机器学习的使用虽然起步较晚,但发展也非常迅速。例如,五大经济学英文顶尖期刊中涉及到机器学习技术的文章数量在年之后以每年74.7%的速度递增,年的数量达到16篇。中文经济学权威期刊也有类似的趋势。[2]本文写作目的旨在系统介绍机器学习技术在社会科学中的应用。我们首先在第二部分给出机器学习技术的定义,然后在第三和第四部分简要介绍该技术在业界及自然科学领域的应用。本文的重点在第五部分,在其中我们将从数据生成、预测以及因果识别三方面介绍机器学习在社会科学中的应用。就数据生成来说,机器学习技术可以帮助学者获得以前很难或无法获得的数据,进而对一些更具挑战性的假设进行检验;就预测来说,机器学习可以更有效地探索变量间的相关性,进而做出较为精准的预测。在这部分,我们将用公式表达的方式详细比较机器学习技术和传统基于回归方法在预测方面的异同;最后,由于机器学习在预测方面的优势,它可以被用来预测反事实进而获得因果效应。我们认为机器学习技术在上述方面的优势使其可以和社会科学现有分析工具结合,检验之前无法用传统方法检验的假设,最终会拓展现有社会科学研究的边界。同时,我们也应该对其带来的问题保持清醒认识,这些问题包括研究可复制性、过分依赖大数据及可能加剧学界不平等。本文最后一部分将对这些问题展开初步讨论。
一、机器学习简介
机器学习是指从数据中识别出规律并以此完成预测、分类及聚类的算法总称(Athey,forth