一亩三分地

 找回密码 注册账号

扫描二维码登录本站


码农求职神器Triplebyte
不用海投
内推多家公司面试

Total Comp Calculator
输入offer信息
系统自动计算每年收入

科技公司如何
用数据分析驱动产品开发
coupon code 250off 立减$250

深入浅出AB Test
从入门到精通
coupon code 250off 立减$250
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
查看: 4632|回复: 38
收起左侧

【整理&分析】Machine Learning常用入门参考资料 (Coursera + Textbooks)

    [复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
paul.chen 发表于 2019-7-8 09:12:26 | 显示全部楼层 |阅读模式
本楼: 👍   100% (18)
 
 
0% (0)   👎
全局: 👍   100% (75)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本人是中西部材料模拟方向PhD,毕业至今两年在化工企业做研发方向的DS。因工作需要看了不少DS/ML方向的资料,包括coursera公开课,Medium上的博客,和一些参考书。当时找资料时很少有这些资料的整理和分析,因此走了不少弯路。在这里希望把我的经验教训与大家分享,抛砖引玉,与大家一起进步。

BTW,想看一些面经帖,求大米。。。先谢谢大家了!

分析的公开课和书本内容涵盖了:Machine Learning, Deep Learning, Data Science, Data Visualization等等。具体清单如下:

Coursera (ML / Statistics / Big Data / Data Visualization)
- Machine Learning, by Stanford
- Deep Learning Specialization (5 courses), by deeplearning.ai
- Advanced Machine Learning Specialization (3/7 courses), by National Research University
- Bayesian Statistics, by University of California, Santa Cruz
- Data Visualization and Communication with Tableau, by Duke
- Big Data Integration and Processing, by University of California, Santa Cruz

Books (ML / Statistics)
- Hands-On Machine Learning with SciKit-Learn and TensorFlow
- Python Machine Learning
- Pattern Recognition and Machine Learning (PRML)
- The Elements of Statistical Learning (ESL)
- An Introduction to Statistical Learning (ISL)
- Machine Learning: A Probabilistic Perspective
- Interpretable Machine Learning

Coursera公开课: Machine Learning, by Stanford
https://www.coursera.org/learn/machine-learning
主题:Machine Learning
子主题:Regression, Neural Network, Support Vector Machine, K-Means, PCA, System Design, etc.
难度:4/10;  深度:5/10;讲解:8/10;综合推荐程度:10/10
相信对于包括我在内的很多人,Andrew Ng的公开课是ML的入门教材之一。我非常喜欢Andrew的教学,深入浅出,有对概念的图像化理解,也有对数学原理的推导。作业大部分为implement某个具体的算法,非常不错。我很推荐这门课作为ML的入门课。
这门课的缺点在于:由于需要涵盖的宽度很大,在深度方面有所不足。如果你对ML的方法已经非常熟悉,那么这门课对于你的帮助可能不会很大。

Coursera公开课:Deep Learning Specialization, by deeplearning.ai
https://www.coursera.org/specializations/deep-learning
5 Courses:
- Neural Networks and Deep Learning
- Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization
- Structuring Machine Learning Projects
- Convolutional Neural Networks
- Sequence Models
主题:Machine Learning
子主题:Neural Network
难度:6/10;深度:6/10;讲解:8/10;综合推荐程度:10/10
这门课是Andrew Ng主讲的关于deep learning的公开课系列。由于现在deep learning的领域发展飞快,很多教科书已经跟不上最新的潮流。因此这门公开课系列也成了deep learning入门的最佳资料之一。这门课包括了对不同的neural network的原理讲解和应用分析,非常实用。作业基本是算法的implementation和应用,有一些也非常有趣。强烈推荐。这门公开课的大部分内容也已被Andrew收录在他(正在?)写作的Deep Learning Yearning一书中,可以考虑下载此书作为本课程的浓缩版笔记。
这个系列的缺点是深度不够。因为课程规模所限,遇到复杂模型时的讲解有点语焉不详。后几门课的作业也有些水。然而瑕不掩瑜,这门课仍然是入门deep learning的最佳之一。

Coursera: Advanced Machine Learning Specialization, by National Research University
https://www.coursera.org/specializations/aml
7 Courses
- Introduction to Deep Learning
- How to Win a Data Science Competition: Learning from Top Kagglers
- Bayesian Methods for Machine Learning
- Practical Reinforcement Learning
- Deep Learning in Computer Vision
- Natural Language Processing
- Addressing LHC Challenges by Machine Learning (project)
注:我只上过前三门

主题:Machine Learning, Data Science
子主题:Deep Learning, Kaggle, Bayesian methods, Reinforcement Learning
难度:8/10;深度:8/10;讲解:2/10;综合推荐程度:5/10
这是俄罗斯National Research University推出的一个“高级”版的课程。我只上过前三门,但也受益匪浅。该系列的特色在于涵盖了其它介绍性入门课程不会涉及的深度内容。第一门deep learning内容和Andrew Ng的课程基本类似。第二门Kaggle强烈推荐!课程内容可以认为是如何综合运用DS/ML的教程。通过一些top Kaggler的讲解,可以学习到如何处理数据,如何应用正确的模型,以及如何改进模型等等,是非常实战的内容。作业包括了编程以及参加一个Kaggle竞赛。第三门课Bayesian Methods涵盖了被大部分ML课程中忽略的贝叶斯方法,数学推导很多,但是能够很大幅度地提升对贝叶斯方法的知识理解,以及对相关machine learning算法的触类旁通。作业包括quiz和编程,难度较大。
缺点是,课程准备相对不足,几位主讲人的讲解也很一般。比如Bayesian methods这门课的讲解实在是很难听懂,经常只顾数学推导而忽略了背后的理解,导致我查看了很多额外的资料才理解了内容。另外Kaggle课包含了一部分只有竞赛才需要的trick (data leakage),像我对这部分并不感兴趣的同学也可以有选择地忽略。总体来说,这系列的课仍然是较高水平的高级教材。

Coursera: Bayesian Statistics, by University of California, Santa Cruz. From 1point 3acres bbs
https://www.coursera.org/learn/bayesian-statistics
主题:Statistics, Machine Learning
子主题:Bayesian statistics
难度:3/10;深度:5/10;讲解:8/10;综合推荐程度:7/10
我把这门课作为了Advanced ML课里Bayesian Methods的prerequisite来用,复习了一些贝叶斯统计的概念。内容是数学为主,讲解是白板推导,非常容易follow。作业只有quiz,非常简单。我花了一个周末就过了一遍这门课,适合作为概念的复习或者预习来用。
缺点是深度较浅,也没有直接的machine learning内容。

Coursera: Big Data Integration and Processing, by University of California, Santa Cruz
https://www.coursera.org/learn/big-data-integration-processing?
(Part of the “Big Data Specialization”)
主题:Big Data
难度:5/10;深度:5/10;讲解:7/10;综合推荐程度:5/10
我把这门课作为了快速入门big data知识的课,包括了spark / mapreduce的应用。不过效果一般。这门课的课件和讲解都很不错,内容也涵盖了一般ML课不会触及的big data application。
缺点是这门课单独来说不够系统,不过应该是我没有上整个系列的原因。因此不多评论。如果大家有学习big data推荐的公开课的话欢迎交流

Coursera: Data Visualization and Communication with Tableau, by Duke
https://www.coursera.org/learn/analytics-tableau?
(Part of the “Excel to MySQL: Analytic Techniques for Business Specialization”). check 1point3acres for more.
主题:Business analytics, Data Visualization
子主题:Tableau
. From 1point 3acres bbs难度:3/10;深度:3/10;讲解:7/10;综合推荐程度:6/10
因为工作需要接触了一下tableau,我就把这门课当作了Tableau的入门课。这门课应用的侧重点偏Business analytics,如果是BA方向的同学应该会觉得很不错。这门课有大量的实战讲解,跟着老师做tableau dashboard,浅显易懂,作为快速入门很赞。
缺点是没有ppt课件,想复习时有点难。而且现在tableau learning大降价到$10/月。这门课的性价比相对于tableau learning也大幅跳水。

Book: Hands-On Machine Learning with SciKit-Learn and TensorFlow
https://www.amazon.com/Hands-Mac ... Flow/dp/1491962291/. 1point3acres
主题:Machine Learning
子主题:Regression, Classification, Support Vector Machine, Decision Tree, Ensemble methods, K-Means, PCA, Neural Network, Reinforcement Learning, etc.
难度:5/10;深度:6/10;讲解:8/10;综合推荐程度:10/10
这是一本入门的神书!不仅内容涵盖了大部分ML的算法,此书胜在对于python scikit-learn包的实战使用。通过书中的例子,可以快速掌握如何实际应用一个算法,以及对于结果的解析。相对于公开课来说,这本书中的内容更加贴近实际DS工作的所需。更难能可贵的是,书中对于算法原理的讲解相当透彻,课后作业题是许多面试题的原型。
缺点是后半部分对于deep learning的讲解不够具体,比如CNN的部分没有涉及到非常具体的算法,和Andrew Ng的公开课相比有很大差距。另一个缺点是后半部分tensorf
游客,本帖隐藏的内容需要积分高于 10 才可浏览,您当前积分为 0。
查看如何攒积分 Click here for more info.
202012-08-24%5D.pdf" target="_blank">https://doc.lagout.org/science/A ... 202012-08-24%5D.pdf
主题:Machine Learning, Bayesian statistics
子主题:Bayesian statistics, Regression, Mixture Models, EM algorithm, kernel methods, Gaussian Processes
难度:7/10;深度:7/10;讲解:7/10;综合推荐程度:7/10
本书的内容较为不同,包括了许多从贝叶斯统计角度推导出来的ML算法,包括regression, mixture models, kernel methods, Gaussian Processes等等。本书对于想要理解贝叶斯统计在ML中的应用的同学会非常有帮助,相当于是ML算法的另一种解释。另外本书也包括了例如Gaussian Processes这样在其它教科书中没有包括的内容,有助于提升知识的完整性。
缺点是并不包括常见的ML算法,对于deep learning也基本没有涉及。本书也是理论推导为主,对于实战应用的借鉴较少。

Book: Interpretable Machine Learning
https://christophm.github.io/interpretable-ml-book/
主题:Machine Learning Interpretation
难度:5/10;深度:6/10;讲解:7/10;综合推荐程度:7/10
本书介绍了如何解读ML的算法与结果,也是该主题较少的资源之一,因此推荐有相关需要的同学们阅读。这本书通过具体的例子,介绍了针对特定ML方法的解读(比如决策树),也介绍了普适性的ML结果解读(通过不同的预测结果)。非常适合DS工作中对于模型的理解,错误分析,以及模型的进一步改进。
缺点是不包括ML算法的讲解。针对特定ML方法的解读章节中涵盖的ML方法也很少(可能大部分ML方法还是太黑箱了吧。。。)。不过这本书新颖的角度还是让我非常推荐此书。

本人还算是DS新人,对于ML的理解也非常粗浅。以上的资料整理和分析让各位大神们见笑了,欢迎批评指正!


评分

参与人数 63大米 +222 收起 理由
NirAx + 1 给你点个赞!
logan.chen + 1 信息全面实用
JaceMRBW + 1 给你点个赞!
hhhub + 1 很有用的信息!
HaibaraAIQFLC + 1 赞分享
yanlolo + 2 多谢
大米 + 1 给你点个赞!
viva + 1 很有用的信息!
yvonnewu1992 + 2 很有用的信息!
jasonusaco + 3 给你点个赞!

查看全部评分


上一篇:最近做的product metrics/case思路总结
下一篇:DS工作一年后回顾和展望(求大米)

本帖被以下淘专辑推荐:

我的人缘0
donnice 发表于 2019-7-9 08:09:39 | 显示全部楼层
本楼: 👍   100% (3)
 
 
0% (0)   👎
全局: 👍   87% (1241)
 
 
12% (178)    👎
感谢LZ。在这里做个非常简单的关于deep learning的补充,推荐些人尽皆知的材料:

花书:https://github.com/exacity/deeplearningbook-chinese
CS224n: http://web.stanford.edu/class/cs224n/
CS231n: http://cs231n.stanford.edu/

欢迎大家补充

评分

参与人数 3大米 +3 收起 理由
lululucylu + 1 很有用的信息!
Calvin_Zhiyuan + 1 给你点个赞!
paul.chen + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0
5668157 发表于 5 天前 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   98% (140)
 
 
1% (2)    👎
爬了下楼,这么和楼主说吧:楼主想要做的事太多,想法太宽泛而导致没有什么好的讨论。
首先,ML范畴太大,楼主都不说清楚项具体完成什么。入门什么东西?经典算法的学习?一本书或一门课好好吃透就行了。应用?研究清楚某几个包或库就好了。
其次,楼主列了这么多书,不记时间成本的吗?比如,PRML和ESL这两本书里,选一本书就已经很到位了,搞研究的就是起步先读一本书和做题,对某个方向感兴趣就看这个方向的reference,或者查某个关键词的资料。
最后,我个人觉得楼主是想学东西的,那不如补补统计,NN我不了解,但ds里很多要求模型解释性的话,统计,尤其是线性回归的知识,十分重要。
祝好。

评分

参与人数 1大米 +3 收起 理由
meglory + 3 很有用的信息!

查看全部评分

回复

使用道具 举报

我的人缘0
donnice 发表于 2019-7-9 13:54:53 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   87% (1241)
 
 
12% (178)    👎
请叫我热情老八 发表于 2019-7-9 13:09
想请教楼主,一个像编程领域的 hello world 级别的应用,在ML的counterpart是什么

是个好问题!我猜就是拿sk_learn实现linear regression?但ML任何算法的问题是要有大量可用数据,不像hello world那样即插即用
回复

使用道具 举报

我的人缘0
YuhaoNg 发表于 2019-7-8 15:18:06 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   94% (48)
 
 
5% (3)    👎
不推荐下 UW的ML吗?非常实践的课程,让学者知道具体应用,结合吴恩达的理论ML 估计就很完美了。
回复

使用道具 举报

我的人缘0
叶知晚 发表于 2019-7-8 12:06:54 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (136)
 
 
0% (1)    👎
真的整理的很详细,谢谢楼主分享
回复

使用道具 举报

我的人缘0
 楼主| paul.chen 发表于 2019-7-8 19:57:43 来自一亩三分地官方APP | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (75)
 
 
0% (0)    👎
YuhaoNg 发表于 2019/07/08 15:18:06
不推荐下 UW的ML吗?非常实践的课程,让学者知道具体应用,结合吴恩达的理论ML 估计就很完美了。

感谢推荐~可惜我没有上过UW的ML 就没有写了。看了课程大纲 是非常经典的regression+classification+unsupervised learning 涵盖的内容很广 project和作业看起来都很赞!
回复

使用道具 举报

我的人缘0
minmin1005 发表于 2019-7-9 01:57:41 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (1)
 
 
0% (0)    👎
很有用的信息!
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (1)
 
 
0% (0)    👎
太有用啦! 谢谢楼主
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
楼主辛苦了,谢谢分享!
回复

使用道具 举报

我的人缘0
QueenieV 发表于 2019-7-9 09:45:21 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   77% (135)
 
 
22% (40)    👎
感谢楼主分享!!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法 - 不要多加空格: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|小黑屋|一亩三分地

GMT+8, 2019-7-24 08:02

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表