全文共字,预计学习时长8分钟
来源:Pexels
武侠小说中,江湖高手如云,行走江湖门派归属,师承来历非常重要。经常看到这样的情况,未曾开打先甩个蔓,阁下师承何人,哪个门派的?放在现代社会,就相当于人才招聘会上的个人简历,哪个学校毕业,学的什么专业。
武侠世界里,常常有那么一部分人独自苦心钻研,最终自成一派,成为江湖传奇。放在现实社会,其实很大一部分自主创业的成功人士,都是在某个领域里自学成才的,实乃司空见惯之象。
程序员圈也十分常见,据最新的数据研究结果显示:65%的程序员都是自学成才。
于是,小芯此次特别为大家整理出一份自学清单,希望能助在自学路上的小伙伴们一臂之力~
本文针对的主要人群
·无任何学位者
·已获得学士学位,如今想转行数据科学者
话不多说,让我们开始吧。
自学意味着什么?
这是个好问题。简而言之,如果你并没有在感兴趣的领域获得相关学士学位(比如,数据科学),但又在这个行业工作(例子依然是数据科学),那么你就是你所感兴趣领域里的无师自通者了。
你可以自由地学习网络课程、阅读相关书籍,而无需在大学里花费好几年接受正规教育。
接下来,我们就来了解一下自学成为数据科学家的第一种方式吧。
0基础开始
来源:Pexels
如果你符合以下条件,则需从0开始学习:
·没有本科学历
·对数据及编程的了解很少或者完全没有了解
该如何开始呢?这可不好说。首先,需要掌握基本的数学和统计技能。没错,你还要学习编程,最好从Python入手。
我知道要学的东西有很多,但是学习数据科学本身就不是一蹴而就的。你需要花费一定时间学习基本知识,不过无需手工做大量计算,充分的视觉理解就足够了。
我并不建议亲手计算的原因是——计算机明显更擅长计算。但对计算机而言,建构问题以及根据具体情况做出相应反应是困难的(此处不考虑条件语句)。这也就是为什么可视化数学和统计方法弥足珍贵的原因了。
如果深入学习数学、统计和编程的话,那么这和在大学里学习数据科学的学生起步都一样(数学大学的学生除外)——因此获得学士学位的人绝没有理由领先于你——至少在数据科学方领域来看是如此。
这是从0学起的方式。在进一步介绍自学资源之前,我们先来看一下另外一种方法。
更换职业
转行可能会很艰难。在一个领域中工作了几年,最终发现这份工作不太适合自己。这没什么大不了的,你也许是觉得无聊,或是缺乏工作动力……原因各种各样,在此不多加赘述了。
我的建议是,尽早坦诚地评估自己的数学和统计技能。认识到自己对十年前学过的科目十分生疏,并不是可耻的事情。
如果对以下内容没有%的把握:
·LinearAlgebra线性代数
·Calculus微积分
·Probability概率
·Statistics统计学
·Programming编程
如果一切都准备好了,接下来就可以继续浏览我精心挑选的资源了。
成为数据科学家的自学资源
虽然没上大学,但你可以选择每天花一至两小时来研究数据科学世界。下一步是因人而异的,很大程度上取决于你是喜欢读书还是看视频——就我个人而言,不太喜欢在8小时的工作之后还要面对书本。
小芯会从自己最喜欢的资源说起——也是小芯第一次接触到数据科学:数据科学和机器学习领域的Python训练营
约瑟是位了不起的讲师。他会快速复习基本的Python库,教你使用Pandas和Numpy进行数据分析,并用Matplotlib和Seaborn实现数据可视化。同时,还会学习机器学习。虽然内容不多且浅显,但是足以入门了。
如果大家更喜欢读书,那么小芯比较推荐这一本:
书名是《Python数据科学手册》(PythonDataScienceHandbook),约有页,与视频内容基本一致——Numpy、Pandas、Matplotlib以及Scikit-Lear——这些都是数据科学的要点。
掌握好这些基础后,就可以更进一步进行机器学习部分了。在此,小芯有两本很好的书推荐给各位,其中一本还是免费的。请继续往下看吧。
《统计学习导论》(IntroductiontoStatisticalLearning)一书适用于更深层次的机器学习,而且可以免费获得。虽然有一些数学专业用语,但是可读性还是很高的。该书仅用页左右的篇幅,简明扼要地介绍了机器学习这一宏大主题。唯一的不足就是书中的代码使用的都是R语言,而非Python。不过,你可以试着将R代码“翻译”成Python代码,这可是个不错的练习机会。
另一本推荐的书名为《使用Scikit-Learn和TensorFlow实操机器学习:构建智能系统的概念、工具和技术》(Hands-onMachineLearningwithScikit-LearnandTensorflow)。如果没记错的话,这本书共有七百多页,但它真的写得很好。在这本书中,同样会从上面学习一些机器学习相关概念,以及深入研究机器学习算法。
这两本书都很好,都能提供很好的帮助(两本都值得一读)。
提及线上课程的话,向大家推荐Coursera网站上吴恩达教授(AndrewNg)的机器学习课程,无需担心自己对此一无所知。该课程持续超过10周,如果基础不牢固,很快就会觉得力不从心。不过,通过12万用户4.9/5的超高评分可以看出,这门课是很值得学习的。
后续步骤
来源:Pexels
已看过了相关的书籍或视频(或是都学习过了),这时候,你一定很想知道接下去该做些什么。根据个人情况,会有较大的不同,不过理想情况下,最好建立一个GitHub主页。
找五个较好的数据库,物尽其用。针对相关数据,使用markdowncells格式记录大量分析、结论和思考过程,制作一份readme文件,记住,整个过程,都要全身心投入。
这么做的原因有二,分别为:
·在练习中新习得的技能
·向潜在同事们展示出自己可写出高质量代码和结论的能力
至于途径,向潜在雇主展示自己最佳的作品是至关重要的。因为你没有学士学位,或是没有与数据科学相关的学位,所以必须通过某种方式来让雇主了解自己是怎样编程的。GitHub就是一个很好的方式。
自学之路贵在坚持,不放弃不抛弃,相信坚持个一两个月,一两年,你一定会有所收获!
加油!
留言点赞