一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 15515|回复: 71
收起左侧

[DataScience] 也写个自己的学习过程和计划-共勉

    [复制链接] |试试Instant~ |关注本帖
nibuxing 发表于 2014-2-21 03:46:29 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
本帖最后由 nibuxing 于 2014-5-9 01:24 编辑

看到很多同学说自己没coding基础,不知从何学起,想到自己也是零基础到现在编程能编编,数据分析能做做,可以一个人做老师规定的两个人+project,也是靠不断摸索总结。
K姐写的学习记录已经是很完善了,我就写一下自己这半年以来的学习心得,希望能给零基础的朋友们点帮助。
. more info on 1point3acres.com
Java方面基本就是跟随着W大的学习清单:
1.有两门课可选:Udacity的Intro to Programming in Java, stanford的CS106A Programming Methodology. 如果时间比较充裕我觉得可以看后者,因为这门课太经典了,认真完成每次project,水平提高很快,缺点是project有点难度,一节课50分钟28节课,费时,所以时间比较少可以看Udacity的那门,我觉得是Udacity上比较好的一门了,老师和助教一起上课,编程练习设置得也很合理。
2.随后可以看Head First Java,我觉得这本书还是不错的,我没做后面的题目,但书大部分内容都看完了,有帮助。
3.Coursera的Algorithms,内容基本涵盖了常用的算法和数据结构,作业也很不错,第二周的作业中有linkedlist,在这之前我把UCB61B的data structure上了25课,我比较推荐这门课,前18课讲的是java基础,这老师讲的太清楚了,对于搞清java基础帮助甚大,但是也比较耗时,我觉得前18课还是有必要认真听一下的,同时也有教了linkedlist。
4. 目前在刷CC150,我觉得这本书的确还是越早刷越好,上面这些已经学过的同学,在来美国之前就已经可以刷题了,百利而无害。

Python:
1. 语法相当简单,入门的话可以去Codecademy,一会儿就能上手,时间比较多的话可以上Udacity CS101,python入门,同时会给你个网络爬虫的概念,稍微教你编一下网络爬虫。
2. 有了基础后可以去看Udacity CS215 Algorithms,也讲了一些算法并用python实现。还有另一门课CS212,这是optional的。
3. coursera上一门叫an intro to interactive programming in python,也是入门课吧,但最后教你怎么写个游戏,我觉得对于做小project有帮助。
4. python做数据处理有时候比R更全面,对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理都有一定优势,特别是数据科学我觉得python比较常用的,所以要会用Python的各种library,numpy scipy是数值计算的扩展包,pandas是主要用来做数据处理(numpy依赖),sympy做符号计算,Matplotlib则用来画图,此外还有一些不太成熟的包如sciki learn,statistical models。成熟度不如R。
这些library:https://github.com/jrjohansson/scientific-python-lectures,可以在这上面自学。也有一本书叫《Python for Data Analysis》,也有大量的介绍。
要会抓数据,这方面基本都是别人教我的,harvardData Science课也有教,youtube,博客,都有相当多的教学,我觉得这部分就看各大博客然后自己练习即可。至于正则表达式,http://deerchao.net/tutorials/regex/regex.htm,beautifulsoup也是google下多看看多用用就熟练了。
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
R:
1. 如果直接上手compute for data analysis,我觉得会比较困难。一开始可以先看code school的Try R,很基础很简单。
2. coursera的Compute for data analysis和data analysis都教R,后者是教一个完整的做数据分析的过程,面铺的很宽,depth不够。coursera上现在有门Data analysis and statistical inference,也会入门R,并且教统计基础,我觉得如果distribution,ttest,p value等很基本的东西都不记得了同学可以跟一下。
3. JHU 4月份开系列课程,目测应该不会很难,深度肯定也一般,最后会有一个Capstone Project,不知道是不是要付钱才能做,但整个系列课程都是free的,既然如此何不好好利用学习呢。

Machine Learning:
1.Statistical Learning的课很基础,我觉得对于入门很好,虽说SL和ML还是有点区别的,(我能感觉到但还是说不出来= =)。一开始讲了linear regression, logistic regression, 随后讲了resampling method:用来control trade-off between bias and variance,接着有回归树和分类树,boosting,支持向量机,最后以unsupervised learning结尾,标准的ML的讲课顺序,涵盖了常规的基本内容。
2.coursera的Machine Learning是用MATLAB的,是Coursera的招牌课并且口碑很好,我觉得对于ML入门帮助会很大,并且可以练习MATLAB。一开始教简单的线性回归和逻辑回归,然后同样,为了解决bias和variance问题引出regularization,然后是较为好用但是比较慢的神经网络,全面发展成熟的SVM(with Kernel和without Kernel),随后是非监督的聚类(非常简单容易理解),降维用的PCA。这门课我边上边参考这位浙大研究生的笔记,觉得她写得挺详尽,帮助理解。http://blog.csdn.net/abcjennifer/article/category/1173803
3.Udacity的在3月中旬开设Machine Learning三门课,分为监督学习非监督学习和加强学习,看了一下课表比较详细比较全面,暑假有空会跟。
4.台湾国立的林老师开的机器学习基石,个人认为相当好,但里面的作业题需要R或者python实现,这之前如果对R或者python不够熟悉的话,很难跟上。
5.同时还有Caltech的learning from data, UCB的intro to data science,UCB的Big Data Analysis with Twitter,coursera上的两门data science的课(等了一年还没不开,我估计不开了),我觉得都是要有编程能力或者ML的了解作为基础再上的进阶课。
6. 书的话有两本,一本叫机器学习实战,还有一本叫Machine Learning from Hackers,我觉得Machine Learning也是实践出真知的,这两本书我个人觉得会有很大的帮助。

其他:
Hadoop: Udacity系列课会有介绍,还有就是上次某个大神分享的Cloudera课件,有人试过吗= =,我没法用,谁看过的话希望能教我一下。
数据库:可以去w3school上学,也可以跟coursera的intro to database.


最后说说自学的一些感想。
我觉得学习过程中很大的问题就是,对于某些概念,你google了,问了同学,结果你还是看不懂听不明白,这个时候完全不要纠结,你一直纠结某个初级内容,无疑是小学一年级你在纠结1+1等于几,你一年级成绩不好,你却说,不,我要留级把一年级的课学得精通再到二年级,我劝你还是一路学下去,因为就算你一路成绩很差,到了六年级你也只能考60分,但是这个时候1年级的题你一定能考满分。我要表达的就是,很多学习过程中的细节,你不断地去纠结,就浪费了大量时间,很可能到最后你还是没明白这个问题是怎么回事,不如放在一边继续向前,你加足马力,等到你已经向前很多了,自然而然就会明白当初的问题是怎么回事了。当然这种还是要靠自己度量和把握。
还有就是面不要铺得很宽,这样很累,我觉得可以先精通一样,然后再慢慢往旁边展开。
我也只是个很初级的learner,所以如有说错的地方请不要太过抠细节哈。
. 1point 3acres 璁哄潧

评分

32

查看全部评分

本帖被以下淘专辑推荐:

Kimurate 发表于 2014-2-21 04:30:03 | 显示全部楼层
好苗!   
回复 支持 反对

使用道具 举报

小K 发表于 2014-2-21 04:33:27 | 显示全部楼层
好贴!

另外强烈推荐udacity刚刚开的新课intro to ds
极端的实用
你提到的纠结概念问题我也遇到过,很多在这门课里面解释了。
回复 支持 反对

使用道具 举报

hitchpy 发表于 2014-2-21 07:43:34 | 显示全部楼层
赞!!总结的好!!
回复 支持 反对

使用道具 举报

anonym 发表于 2014-2-21 08:27:14 | 显示全部楼层
Machine learning强烈推荐CMU Tom Mitchell编的教材。虽然一些内容已经过时了,但是讲得挺深入浅出的。别的课都是被逼的读reading,能不读就不读,这本是老师讲到哪我就把书看到哪,感觉帮助很大。毕竟Machine learning重在算法,还是要多看加深理解。
回复 支持 反对

使用道具 举报

anonym 发表于 2014-2-21 08:29:54 | 显示全部楼层
另外,你现在就开始刷题感觉如何?我总感觉自己学的不够,直接刷题不够系统。
再另外,你怎么会有这么多时间的
回复 支持 反对

使用道具 举报

ifso 发表于 2014-2-21 09:11:51 | 显示全部楼层
. 1point3acres.com/bbs
我也同感自己学得不够,直接刷题不系统,总想着多学点再说。. 1point 3acres 璁哄潧
可是暑期实习不等人啊 -。-
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-21 10:01:25 | 显示全部楼层
小K 发表于 2014-2-21 04:33
好贴!

另外强烈推荐udacity刚刚开的新课intro to ds

恩,Udacity的几门课一直没时间跟,打算等暑假和JHU系列一起跟。
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-21 10:16:41 | 显示全部楼层
anonym 发表于 2014-2-21 08:29
另外,你现在就开始刷题感觉如何?我总感觉自己学的不够,直接刷题不够系统。
再另外,你怎么会有这么多时 ...

我觉得可以直接刷,像2 3章我觉得都不难吧,你都跟完Algorithms了我觉得可以开始了!
然后就是我学校课不是很多,平时时间比较充裕一点。那份清单有很多我还没完成呢。
还有就是,每天洗菜烧饭吃饭洗碗就用一个小时(三菜),吃饭五分钟内解决,不睡懒觉,车上看书,课前编程,洗澡练功,坚持锻炼。自从来了美国,所有做事的速度都加快了。不过脑子经常运作的慢,硬伤。
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-21 10:17:49 | 显示全部楼层
. more info on 1point3acres.com
多谢!刷题刷题!
回复 支持 反对

使用道具 举报

anonym 发表于 2014-2-21 10:41:48 | 显示全部楼层
nibuxing 发表于 2014-2-20 21:16
我觉得可以直接刷,像2 3章我觉得都不难吧,你都跟完Algorithms了我觉得可以开始了!
然后就是我学校课不 ...

赞!精神头太好了!
不过吃饭五分钟解决时间长了对身体肯定不好的 还是尽量避免吧
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-21 10:54:04 | 显示全部楼层
anonym 发表于 2014-2-21 10:41
赞!精神头太好了!
不过吃饭五分钟解决时间长了对身体肯定不好的 还是尽量避免吧

有道理。。。谢谢提醒,我也不知道为什么就吃饭越来越快了。。。
回复 支持 反对

使用道具 举报

王了个帅 发表于 2014-2-23 16:47:42 | 显示全部楼层
好评!共勉
回复 支持 反对

使用道具 举报

liusicong999 发表于 2014-2-23 16:56:39 | 显示全部楼层
楼主现在是什么专业呢?编程完全靠自己嘛?
回复 支持 反对

使用道具 举报

vincent0615 发表于 2014-2-23 17:15:10 | 显示全部楼层
networking的课已经脱节了,算法课也快跟不上了,得向lz看齐,老偷懒可不行。还好坚持锻炼的习惯已经有了,还差一个坚持写工作之外的程序。等我开始oncall了那真就是一废就废掉一个星期。
什么叫出来混迟早要还的,当年上学的时候太懒了,除了做作业考试,啥正经事也不干,现在才知道要努力了,哎
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-24 00:19:20 | 显示全部楼层

恩,策马奔腾!
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-24 00:22:12 | 显示全部楼层
liusicong999 发表于 2014-2-23 16:56
楼主现在是什么专业呢?编程完全靠自己嘛?

我水专业和计算机关系不大。
这学期有修数据库的课。. more info on 1point3acres.com
下学期会选data warehousing,Algorithms,或者information retrieval,IS和CS的课. 鍥磋鎴戜滑@1point 3 acres
其他的时候都靠自己,尽量找TARA做。
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-2-24 00:23:28 | 显示全部楼层
vincent0615 发表于 2014-2-23 17:15
networking的课已经脱节了,算法课也快跟不上了,得向lz看齐,老偷懒可不行。还好坚持锻炼的习惯已经有了, ...

看过学长的帖子,一年项目基本零基础找到工作已经实数努力,那段“冬天不买衣服,留着青山在不怕没柴烧”我印象极其深刻。
回复 支持 反对

使用道具 举报

ylitv 发表于 2014-3-4 08:52:34 | 显示全部楼层
感谢楼主分享!
楼主
coursera上自学的课程可以写到简历上么?统计专业的自学了cs的课程可以直接找cs工作么?谢谢! 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
回复 支持 反对

使用道具 举报

 楼主| nibuxing 发表于 2014-3-4 08:55:41 | 显示全部楼层
ylitv 发表于 2014-3-4 08:52
感谢楼主分享!
楼主
coursera上自学的课程可以写到简历上么?统计专业的自学了cs的课程可以直接找cs工作 ...

可以写,education这里我加了Online Courses Certificates一栏
我觉得可以找吧,先要修过算法数据结构,其次要有计算机方面的Project,最后找人内推。
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-4 16:54

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表