一亩三分地

 找回密码 注册账号

扫描二维码登录本站


Salarytics=Salary Analytics
查询工资数据
系统自动计算每年收入

码农求职神器Triplebyte
不用海投
内推多家公司面试

科技公司如何
用数据分析驱动产品开发
coupon code 250off 立减$250

深入浅出AB Test
从入门到精通
coupon code 250off 立减$250
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
查看: 7234|回复: 42
收起左侧

【整理&分析】Machine Learning常用入门参考资料 (Coursera + Textbooks)

    [复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
本楼: 👍   100% (20)
 
 
0% (0)   👎
全局: 👍   100% (95)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本人是中西部材料模拟方向PhD,毕业至今两年在化工企业做研发方向的DS。因工作需要看了不少DS/ML方向的资料,包括coursera公开课,Medium上的博客,和一些参考书。当时找资料时很少有这些资料的整理和分析,因此走了不少弯路。在这里希望把我的经验教训与大家分享,抛砖引玉,与大家一起进步。

BTW,想看一些面经帖,求大米。。。先谢谢大家了!

分析的公开课和书本内容涵盖了:Machine Learning, Deep Learning, Data Science, Data Visualization等等。具体清单如下:

Coursera (ML / Statistics / Big Data / Data Visualization)
- Machine Learning, by Stanford
- Deep Learning Specialization (5 courses), by deeplearning.ai
- Advanced Machine Learning Specialization (3/7 courses), by National Research University
- Bayesian Statistics, by University of California, Santa Cruz
- Data Visualization and Communication with Tableau, by Duke
- Big Data Integration and Processing, by University of California, Santa Cruz

Books (ML / Statistics)
- Hands-On Machine Learning with SciKit-Learn and TensorFlow
- Python Machine Learning
- Pattern Recognition and Machine Learning (PRML)
- The Elements of Statistical Learning (ESL)
- An Introduction to Statistical Learning (ISL)
- Machine Learning: A Probabilistic Perspective
- Interpretable Machine Learning

Coursera公开课: Machine Learning, by Stanford
https://www.coursera.org/learn/machine-learning
主题:Machine Learning
子主题:Regression, Neural Network, Support Vector Machine, K-Means, PCA, system design, etc.
难度:4/10;  深度:5/10;讲解:8/10;综合推荐程度:10/10
相信对于包括我在内的很多人,Andrew Ng的公开课是ML的入门教材之一。我非常喜欢Andrew的教学,深入浅出,有对概念的图像化理解,也有对数学原理的推导。作业大部分为implement某个具体的算法,非常不错。我很推荐这门课作为ML的入门课。
这门课的缺点在于:由于需要涵盖的宽度很大,在深度方面有所不足。如果你对ML的方法已经非常熟悉,那么这门课对于你的帮助可能不会很大。

Coursera公开课:Deep Learning Specialization, by deeplearning.ai
https://www.coursera.org/specializations/deep-learning
5 Courses:
- Neural Networks and Deep Learning
- Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization
- Structuring Machine Learning Projects
- Convolutional Neural Networks
- Sequence Models
主题:Machine Learning
子主题:Neural Network
难度:6/10;深度:6/10;讲解:8/10;综合推荐程度:10/10
这门课是Andrew Ng主讲的关于deep learning的公开课系列。由于现在deep learning的领域发展飞快,很多教科书已经跟不上最新的潮流。因此这门公开课系列也成了deep learning入门的最佳资料之一。这门课包括了对不同的neural network的原理讲解和应用分析,非常实用。作业基本是算法的implementation和应用,有一些也非常有趣。强烈推荐。这门公开课的大部分内容也已被Andrew收录在他(正在?)写作的Deep Learning Yearning一书中,可以考虑下载此书作为本课程的浓缩版笔记。
这个系列的缺点是深度不够。因为课程规模所限,遇到复杂模型时的讲解有点语焉不详。后几门课的作业也有些水。然而瑕不掩瑜,这门课仍然是入门deep learning的最佳之一。

Coursera: Advanced Machine Learning Specialization, by National Research University
https://www.coursera.org/specializations/aml
7 Courses
- Introduction to Deep Learning
- How to Win a Data Science Competition: Learning from Top Kagglers
- Bayesian Methods for Machine Learning
- Practical Reinforcement Learning
- Deep Learning in Computer Vision
- Natural Language Processing
- Addressing LHC Challenges by Machine Learning (project)
注:我只上过前三门

主题:Machine Learning, Data Science
子主题:Deep Learning, Kaggle, Bayesian methods, Reinforcement Learning
难度:8/10;深度:8/10;讲解:2/10;综合推荐程度:5/10
这是俄罗斯National Research University推出的一个“高级”版的课程。我只上过前三门,但也受益匪浅。该系列的特色在于涵盖了其它介绍性入门课程不会涉及的深度内容。第一门deep learning内容和Andrew Ng的课程基本类似。第二门Kaggle强烈推荐!课程内容可以认为是如何综合运用DS/ML的教程。通过一些top Kaggler的讲解,可以学习到如何处理数据,如何应用正确的模型,以及如何改进模型等等,是非常实战的内容。作业包括了编程以及参加一个Kaggle竞赛。第三门课Bayesian Methods涵盖了被大部分ML课程中忽略的贝叶斯方法,数学推导很多,但是能够很大幅度地提升对贝叶斯方法的知识理解,以及对相关machine learning算法的触类旁通。作业包括quiz和编程,难度较大。
缺点是,课程准备相对不足,几位主讲人的讲解也很一般。比如Bayesian methods这门课的讲解实在是很难听懂,经常只顾数学推导而忽略了背后的理解,导致我查看了很多额外的资料才理解了内容。另外Kaggle课包含了一部分只有竞赛才需要的trick (data leakage),像我对这部分并不感兴趣的同学也可以有选择地忽略。总体来说,这系列的课仍然是较高水平的高级教材。

Coursera: Bayesian Statistics, by University of California, Santa Cruz
https://www.coursera.org/learn/bayesian-statistics
主题:Statistics, Machine Learning
子主题:Bayesian statistics
难度:3/10;深度:5/10;讲解:8/10;综合推荐程度:7/10
我把这门课作为了Advanced ML课里Bayesian Methods的prerequisite来用,复习了一些贝叶斯统计的概念。内容是数学为主,讲解是白板推导,非常容易follow。作业只有quiz,非常简单。我花了一个周末就过了一遍这门课,适合作为概念的复习或者预习来用。
缺点是深度较浅,也没有直接的machine learning内容。

Coursera: Big Data Integration and Processing, by University of California, Santa Cruz
https://www.coursera.org/learn/big-data-integration-processing?
(Part of the “Big Data Specialization”)
主题:Big Data. 1point3acres
难度:5/10;深度:5/10;讲解:7/10;综合推荐程度:5/10
我把这门课作为了快速入门big data知识的课,包括了spark / mapreduce的应用。不过效果一般。这门课的课件和讲解都很不错,内容也涵盖了一般ML课不会触及的big data application。
缺点是这门课单独来说不够系统,不过应该是我没有上整个系列的原因。因此不多评论。如果大家有学习big data推荐的公开课的话欢迎交流. check 1point3acres for more.

Coursera: Data Visualization and Communication with Tableau, by Duke
https://www.coursera.org/learn/analytics-tableau?
(Part of the “Excel to MySQL: Analytic Techniques for Business Specialization”)
主题:Business analytics, Data Visualization
子主题:Tableau
难度:3/10;深度:3/10;讲解:7/10;综合推荐程度:6/10
因为工作需要接触了一下tableau,我就把这门课当作了Tableau的入门课。这门课应用的侧重点偏Business analytics,如果是BA方向的同学应该会觉得很不错。这门课有大量的实战讲解,跟着老师做tableau dashboard,浅显易懂,作为快速入门很赞。
缺点是没有ppt课件,想复习时有点难。而且现在tableau learning大降价到$10/月。这门课的性价比相对于tableau learning也大幅跳水。

Book: Hands-On Machine Learning with SciKit-Learn and TensorFlow
https://www.amazon.com/Hands-Mac ... Flow/dp/1491962291/
主题:Machine Learning
子主题:Regression, Classification, Support Vector Machine, Decision Tree, Ensemble methods, K-Means, PCA, Neural Network, Reinforcement Learning, etc.
难度:5/10;深度:6/10;讲解:8/10;综合推荐程度:10/10
这是一本入门的神书!不仅内容涵盖了大部分ML的算法,此书胜在对于python scikit-learn包的实战使用。通过书中的例子,可以快速掌握如何实际应用一个算法,以及对于结果的解析。相对于公开课来说,这本书中的内容更加贴近实际DS工作的所需。更难能可贵的是,书中对于算法原理的讲解相当透彻,课后作业题是许多面试题的原型。
缺点是后半部分对于deep learning的讲解不够具体,比如CNN的部分没有涉及到非常具体的算法,和Andrew Ng的公开课相比有很大差距。另一个缺点是后半部分tensorflow的implementation已经过时。由于keras, tensorflow, pytorch等工具的出现和更新,这部分代码的参考功能已经很低,只能作为学习tensorflow的初级读物使用了。不过总的来说还是非常推荐此书的,可以作为入门以及深度二刷。
补充:刚看到此书的新版本将在十月份上市,暂且不知tensorflow部分更新情况,不过还是期待和推荐一下!
. From 1point 3acres bbs
Book: Python Machine Learning
https://www.amazon.com/Python-Ma ... Flow/dp/1787125939/
主题:Machine Learning-baidu 1point3acres
子主题:Regression, Classification, Support Vector Machine, Decision Tree, Ensemble methods, K-Means, PCA, Neural Network, Model deployment, etc.
难度:4/10;深度:3/10;讲解:7/10;综合推荐程度:5/10
这本书与上一本推荐的hands-on ML非常类似,是通过实战来讲解ML算法的书。较之hands-on ML,此书更偏向具体的例子,有几个project实例,也涵盖了model deployment等其它书很少覆盖的内容。
缺点是内容与hands-on ML比较重复,而且对于原理的讲解不深。而且和hands-on ML一样,后半部分的deep learning代码已基本过时。如果已看过了hands-on ML,那么这本书适合作为查遗补缺使用,不是必看。

Book: Pattern Recognition and Machine Learning (PRML)
http://users.isr.ist.utl.pt/~wur ... inger%20%202006.pdf
主题:Machine Learning
子主题:Regression, Classification, Support Vector Machine, Ensemble methods, Neural Network, Inference and Sampling, etc.
难度:8/10;深度:8/10;讲解:8/10;综合推荐程度:8/10
Bishop大神的教科书PRML,适合在入门了基本ML算法和概念之后作为高级教材使用。内容包括了大部分ML经典算法的数学原理和物理解释。对于深度理解某算法的原理非常有帮助。此外,本书还包括了许多公开课和教材不涵盖的Bayesian inference and sampling内容,例如EM算法和latent variable, approximate inference, continuous latent variables等等。通过这些贝叶斯统计相关的概念,推导出ML的经典算法(比如PCA)。这对于想夯实统计根基的同学非常推荐,也能够提高对ML算法更深层次的理解。
缺点是受时代所限,neural network部分较为简单,也不包括目前Computer Vision和Natural Language Processing里使用的许多算法和模型。此外本书不包括python代码,因此不推荐作为入门书。但是作为进阶版教科书,此书是第一梯队。

Book: The Elements of Statistical Learning (ESL)
https://web.stanford.edu/~hastie/Papers/ESLII.pdf
主题:Machine Learning
子主题:Regression, Classification, Support Vector Machine, Ensemble methods, Neural Network, K-Nearest Neighbors, Unsupervised Learning, etc.
难度:9/10;深度:8/10;讲解:6/10;综合推荐程度:7/10
又是一本大神级的教科书,涵盖了大部分ML的算法原理的讲解。这本书推导ML算法的角度和公开课非常不同。例如通过两大章节的basis expansions and regularizations + kernel smoothing才引出SVM。阅读之后,虽然不能完全掌握其精髓,但仍有茅塞顿开之感。尤其推荐第7章Model Assessment and Selections,阅读之后感觉不同的ML方法不再是割裂开来的,而是有融会贯通之意。
缺点是难度非常大,数学推导较多,即使相较于PRML也是较难阅读的一类。但不巧的是此书行文逻辑又与大部分其它教科书不一样,因此也很难单独阅读某一章节。可以试着快速翻阅此书了解作者对ML的解构思路,第二遍再找感兴趣的章节仔细翻阅。相信一定会大有裨益。

Book: An Introduction to Statistical Learning (ISL)
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf
主题:Machine Learning
子主题:Regression, Classification, Support Vector Machine, Decision Tree, Ensemble methods, Unsupervised Learning, etc.
难度:8/10;深度:8/10;讲解:8/10;综合推荐程度:8/10
此书通过统计概率的角度来理解ML算法,涵盖了大部分非deep learning的ML算法。哪怕是阅读了前几章节的linear regression and classification,也能够对如此简单的算法有更深的理解。另外此书的章节是按照常用的ML算法来划分,因此可以拿出来单独阅读某一章节。我也非常喜欢此书中不少算法之间相互类比的内容。此书中有不少R的代码,不过因为我是python用户,因此这部分留待读者评论。
缺点是涵盖的内容较少,只有传统的ML算法,不包括deep learning的内容。

Book: Machine Learning: A Probabilistic Perspective
https://doc.lagout.org/science/A ... 202012-08-24%5D.pdf
主题:Machine Learning, Bayesian statistics
子主题:Bayesian statistics, Regression, Mixture Models, EM algorithm, kernel methods, Gaussian Processes. 1point3acres
难度:7/10;深度:7/10;讲解:7/10;综合推荐程度:7/10
本书的内容较为不同,包括了许多从贝叶斯统计角度推导出来的ML算法,包括regression, mixture models, kernel methods, Gaussian Processes等等。本书对于想要理解贝叶斯统计在ML中的应用的同学会非常有帮助,相当于是ML算法的另一种解释。另外本书也包括了例如Gaussian Processes这样在其它教科书中没有包括的内容,有助于提升知识的完整性。
缺点是并不包括常见的ML算法,对于deep learning也基本没有涉及。本书也是理论推导为主,对于实战应用的借鉴较少。

Book: Interpretable Machine Learning
https://christophm.github.io/interpretable-ml-book/
主题:Machine Learning Interpretation
难度:5/10;深度:6/10;讲解:7/10;综合推荐程度:7/10
本书介绍了如何解读ML的算法与结果,也是该主题较少的资源之一,因此推荐有相关需要的同学们阅读。这本书通过具体的例子,介绍了针对特定ML方法的解读(比如决策树),也介绍了普适性的ML结果解读(通过不同的预测结果)。非常适合DS工作中对于模型的理解,错误分析,以及模型的进一步改进。
缺点是不包括ML算法的讲解。针对特定ML方法的解读章节中涵盖的ML方法也很少(可能大部分ML方法还是太黑箱了吧。。。)。不过这本书新颖的角度还是让我非常推荐此书。

本人还算是DS新人,对于ML的理解也非常粗浅。以上的资料整理和分析让各位大神们见笑了,欢迎批评指正!


评分

参与人数 78大米 +247 收起 理由
从前有座山 + 2 很有用的信息!
timothly_black + 2 给你点个赞!
放心 + 1 欢迎分享你知道的情况,会给更多积分奖励!
pigaret + 2 给你点个赞!
cxcx2016 + 2 很有用的信息!
lanzizuan + 2 给你点个赞!
sclmaomao + 1 给你点个赞!
情书青色珊瑚礁 + 1 很有用的信息!
Twentysomething + 3 给你点个赞!
Rangfu + 1 很有用的信息!

查看全部评分


上一篇:最近做的product metrics/case思路总结
下一篇:DS工作一年后回顾和展望(求大米)

本帖被以下淘专辑推荐:

我的人缘0
donnice 2019-7-9 08:09:39 | 显示全部楼层
本楼: 👍   100% (4)
 
 
0% (0)   👎
全局: 👍   87% (1431)
 
 
12% (196)    👎
感谢LZ。在这里做个非常简单的关于deep learning的补充,推荐些人尽皆知的材料:

花书:https://github.com/exacity/deeplearningbook-chinese
CS224n: http://web.stanford.edu/class/cs224n/
CS231n: http://cs231n.stanford.edu/

欢迎大家补充

评分

参与人数 3大米 +3 收起 理由
lululucylu + 1 很有用的信息!
Calvin_Zhiyuan + 1 给你点个赞!
paul.chen + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0
5668157 2019-7-19 22:38:08 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   95% (159)
 
 
4% (8)    👎
爬了下楼,这么和楼主说吧:楼主想要做的事太多,想法太宽泛而导致没有什么好的讨论。
首先,ML范畴太大,楼主都不说清楚项具体完成什么。入门什么东西?经典算法的学习?一本书或一门课好好吃透就行了。应用?研究清楚某几个包或库就好了。
其次,楼主列了这么多书,不记时间成本的吗?比如,PRML和ESL这两本书里,选一本书就已经很到位了,搞研究的就是起步先读一本书和做题,对某个方向感兴趣就看这个方向的reference,或者查某个关键词的资料。
最后,我个人觉得楼主是想学东西的,那不如补补统计,NN我不了解,但ds里很多要求模型解释性的话,统计,尤其是线性回归的知识,十分重要。-baidu 1point3acres
祝好。

评分

参与人数 1大米 +3 收起 理由
meglory + 3 很有用的信息!

查看全部评分

回复

使用道具 举报

我的人缘0
donnice 2019-7-9 13:54:53 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   87% (1431)
 
 
12% (196)    👎
请叫我热情老八 发表于 2019-7-9 13:09
想请教楼主,一个像编程领域的 hello world 级别的应用,在ML的counterpart是什么

是个好问题!我猜就是拿sk_learn实现linear regression?但ML任何算法的问题是要有大量可用数据,不像hello world那样即插即用
回复

使用道具 举报

我的人缘0
YuhaoNg 2019-7-8 15:18:06 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   94% (48)
 
 
5% (3)    👎
不推荐下 UW的ML吗?非常实践的课程,让学者知道具体应用,结合吴恩达的理论ML 估计就很完美了。
回复

使用道具 举报

我的人缘0
叶知晚 2019-7-8 12:06:54 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (164)
 
 
0% (1)    👎
真的整理的很详细,谢谢楼主分享
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (95)
 
 
0% (0)    👎
YuhaoNg 发表于 2019/07/08 15:18:06
不推荐下 UW的ML吗?非常实践的课程,让学者知道具体应用,结合吴恩达的理论ML 估计就很完美了。

感谢推荐~可惜我没有上过UW的ML 就没有写了。看了课程大纲 是非常经典的regression+classification+unsupervised learning 涵盖的内容很广 project和作业看起来都很赞!
回复

使用道具 举报

我的人缘0
minmin1005 2019-7-9 01:57:41 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (1)
 
 
0% (0)    👎
很有用的信息!
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (1)
 
 
0% (0)    👎
太有用啦! 谢谢楼主
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
楼主辛苦了,谢谢分享!
回复

使用道具 举报

我的人缘0
QueenieV 2019-7-9 09:45:21 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   79% (159)
 
 
20% (40)    👎
感谢楼主分享!!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法 - 不要多加空格: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版||一亩三分地

GMT+8, 2019-9-15 15:29

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表