作者David Venturi 机器之心编译 参与:吴攀、侯韵楚
一年前,我从加拿大**的计算机科学课程之一退出,并利用在线资源开始创建属于自己的数据科学硕士课程。我意识到,通过 edX 、Coursera 以及 Udacity,我只需用成本的一小部分便可以更迅速、有效地学到我所需要的一切。 这门课程差不多要完成了。我修读过许多数据科学相关的课程,并了解更多的课程。我知道其中有什么选择,也清楚成为数据分析师或数据科学家所需要的技能。我在几个月之前开始着手创建一个能够为数据科学的每个主题推荐最佳课程的评审驱动指南。 关于系列的第一个指南,我为初学级的数据科学家推荐了编码类指南,然后是概率与统计类的指南: 编码类:https://medium.freecodecamp.com/if-you-want-to-learn-data-science-start-with-one-of-these-programming-classes-fb694ffe780c#.42hhzxopw 概率与统计类:https://medium.freecodecamp.com/if-you-want-to-learn-data-science-take-a-few-of-these-statistics-classes-9bbabab098b9#.p7pac546r 现在来介绍数据科学 对于数据科学课程所介绍的一些内容若有不确定的地方也不用担心,稍后会做出解释。 为了这本指南,我花了 10 多个小时搜集截至 2017 年 1 月提供的数据科学课程的每一个在线介绍,从它们的教学大纲和评论中提取关键信息并编辑评分。为了完成这个任务,我使用了开源的 Class Central 社区和它的具有数千课程评分与评论的数据库作为辅助。 Class Central 的主页: www.class-central.com 自 2011 年以来,Class Central 的创始人 Dhawal Shah 一直比世界上任何人都密切关注在线课程,他亲自帮我列出了这份资源清单。 我们如何选择课程 每门课程必须符合三个标准:
我们认为这个指南涵盖了所有符合上述标准的重要课程。由于 Udemy 中存在数百个课程,所以仅选择了评论最多且评分最高的课程。但我们总会有可能错过一些优秀的课程,所以如果发现我们有所遗漏,请在评论区告知。 我们如何评估课程 为了计算每个课程的加权平均评分,我们汇集了 Class Central 和其他评论网站的平均评分和评论数。同时我们阅读文本评论,以该反馈作为数字评分的补充。 我们基于两个因素做出主观的大纲判断内容: 1. 数据科学过程的覆盖。课程是否略过了某些科目?它是否覆盖了某些科目过多的细节?请参阅下一部分来了解此过程的具体内容。 2. 通用数据科学工具的使用。课程是使用普遍的编程语言(如 Python 和/或 R)教授的吗?这些都不是必要的,但在大多数情况下有帮助,所以对这些课程稍作优先考虑。 Python 和 R 是数据科学中使用最普遍的两种编程语言 什么是数据科学过程(data science process)? 什么是数据科学?数据科学家做什么工作?这些是数据科学课程介绍所应回答的基本问题类型。哈佛大学教授 Joe Blitzstein 和 Hanspeter Pfister 的以下信息对典型的数据科学过程进行了概述,这会帮助我们回答这些问题。 来自 Opera Solution 的可视化 我们对于数据科学课程介绍的目标是熟悉数据科学过程,并不想太深入地涵盖过程的具体方面,因此便停留在该标题的「介绍/入门(intro to)」部分。 对于每一方面,理想课程应该解释过程框架内的关键概念、介绍常用工具并提供一些示例(动手实践更佳)。 我们只是在寻找课程介绍,因此本指南不包括约翰霍普金斯大学的 Coursera 数据科学专业(Data Science Specialization)或 Udacity 的数据分析师纳米学位(Data Analyst Nanodegree)等专业。这些课程的汇编并未包含这个系列的目的:为每个科目找到包括数据科学教育在内的最佳个人课程。本系列文章的最后三个指南将详细介绍数据科学过程的每个方面。 基本编码、统计以及概率所需的经验 下面列出的课程需要基本的编程、统计和概率经验。这个要求可以理解,因为有些前沿科目通常包含几门专项课程。 这种经验可以从我们所推荐的数据科学职业指南的前两篇文章(编程、统计)中获得。 我们选择的数据科学最佳入门课程是: 数据科学 A-Z:包含实际数据科学练习(Data Science A-Z: Real-Life Data Science Exercises Included)(Kirill Eremenko/Udemy): https://www.udemy.com/datascience 在我们量化评估的 20 个数据科学课程中,Kirill Eremenko 在 Udemy 上的 Data Science A-Z 在数据科学过程的广度和深度上都是确定无疑的赢家。在其 3071 个评价中,其获得了 4.5 的加权平均评分,这个课程是目前评分最高且评论数最多的课程。 该课程概述了完整的数据科学过程并提供了实际的案例。而且该课程的长度为 21 小时,是一个非常合适的长度。评价者普遍很喜欢该导师的讲解以及课程的内容组织。该课程的价格会随 Udemy 的折扣政策而发生改变,你甚至有可能只需 10 美元就能学习该课程。 尽管它并不检查我们的「常用数据科学工具使用」工具箱,但非 Python/R 工具选择(gretl、Tableau、Excel)在这一背景中得到了有效的应用。Eremenko 解释了选择 gretl 的原因(注:gretl 是一个统计软件包),尽管这个解释也适用于其使用的所有工具:
一位著名的评论者指出:
一个非常棒的以 Python 为中心的入门介绍 数据分析入门(Intro to Data Analysis(Udacity)): https://www.class-central.com/mooc/4937/udacity-intro-to-data-analysis Udacity 的 Intro to Data Analysis 是一个相对较新的课程,该课程也是 Udacity 受欢迎的数据分析师纳米学位(Nanodegree)课程中的一部分。它包含了清晰的使用 Python 的数据科学过程,尽管其在建模方面还有所欠缺。该课程估计需要 36 个小时的时间(每周 6 小时,一共 6 周)。尽管在我的经历中它要短一些。这个课程有一个 5 星的评价。它是免费的。 该课程的视频制作精良,其导师 Caroline Buckey 的授课清晰明了。课程中大量的编程测验能够帮助强化在视频中学到的概念。学生肯定能够获得新的或提升过得 NumPy 和 Pandas 技能(NumPy 和 Pandas 都是流行的 Python 库)。其最后的项目(其会在纳米学位中得到评估和评价,但并不在这个免费的单独课程中)可以作为一个很好的额外补充。 一个很不错但没有评价数据的课程 数据科学基础(Data Science Fundamentals (Big Data University)): https://bigdatauniversity.com/learn/data-science/ Data Science Fundamentals 是由 IBM 的 Big Data University 所提供了一个 4 个课程的系列课程。这四门课程分别是:Data Science 101、Data Science Methodology、Data Science Hands-on with Open Source Tools 和 R 101。 数据科学 101(Data Science 101): https://bigdatauniversity.com/courses/data-science-101/ 数据科学方法(Data Science Methodology): https://bigdatauniversity.com/courses/data-science-methodology-2/ 使用开源工具上手数据科学(Data Science Hands-on with Open Source Tools): https://bigdatauniversity.com/courses/data-science-hands-open-source-tools/ R 101: https://bigdatauniversity.com/courses/r-101/ 这个系列课程包含了使用 Python 和 R 的完整数据过程,此外,这里还有上手的实验环境。这些课程有极大的生产价值。根据你是否选修最后的 R 101 课程(这个课程对于本指南的目的而言并不是必需的),这个系列课程的时间长度为 13-18 小时。不幸的是,在主要的网站上没有关于该课程的评价数据可供我们分析,所以我们不能基于评价做出推荐,不过这个课程是免费的。 比赛 我们的第一名选择的是有 3068 个评论给出了加权平均分 4.5 的课程。下面让我们看看其它选择,按降序排序。 如果你打算通过 R 语言入门数据科学,你还能在下面找到一些以 R 为重点的课程。 数据科学入门(Introduction to Data Science (Data Hawk Tech/Udemy) 链接: https://www.udemy.com/learn-data-science 该课程覆盖了数据科学的全过程,尽管深度有限。该课程相当简短(仅有三小时内容)。其简要地覆盖了 R 和 Python。它有 62 个评分,获得了 4.4 的加权平均分。价格依 Udemy 的折扣而波动。 应用数据科学:入门(Applied Data Science: An Introduction(Syracuse University/Open Education by Blackboard)) 链接: https://www.class-central.com/mooc/1806/open-education-by-blackboard-applied-data-science-an-introduction 该课程覆盖了数据科学的全过程,但并不均匀。其重点关注了基础统计学和 R 语言。对于本指南的目的而言,应用太多,对数据科学过程的关注不够。网络课程体验有所脱节。它获得了 6 个评论,得到了 4.33 的加权平均分。免费。 数据科学入门(Introduction To Data Science (Nina Zumel |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|