聊聊在私立文理读cs的两年感受

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
E轮2.5亿美元融资
K12教育独角兽一起作业
北京-诚聘人工智能/教育/大数据岗
坐标湾区
Games Startup
招聘游戏开发工程师
游戏初创公司招聘工程师、UIUX Designer和游戏策划
码农求职神器Triplebyte:
不用海投
内推多家公司面试
把贵司招聘信息放这里
查看: 91439|回复: 285
收起左侧

DS 学习 - 打卡贴【欢迎指教】

  [复制链接] |试试Instant~ |关注本帖
DL 发表于 2016-7-26 02:20:01 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
本帖最后由 DL 于 2016-7-26 12:51 编辑

学习大纲

. 留学申请论坛-一亩三分地
Programming
  • Python: numpy, pandas, matplotlib, scipy, scikit-learn
  • R: ggplot2, dplyr, reshape2
  • SQL, NO SQL
  • Data Wrangling: Regular expressions; Parsing csv, xml files
  • Data structure, Algorithm
  • Java, C/C++
  • JavaScript: web development
来源一亩.三分地论坛.
Machine learning
  • Supervised Learning
  • Unsupervised Learning
  • Reinforcement Learning

Communication
  • Data Visualization
  • Data Presentation
  • Project Management

Statistics. 留学申请论坛-一亩三分地
  • Hypothesis testing
  • A/B testing
  • SMART experiments. From 1point 3acres bbs

Big data
  • Hadoop, MapReduce
  • Spark
  • MongoDB
  • Hive

本人以前工科背景,搞过数值计算方法,用C++写过工程应用软件。现打算转数据科学,通过学习, 初步掌握了以下一些知识点
1. 编程方面:
java: 上了Coursera 上的algorithm I, II (Princeton),对算法和java有了一些了解
Python:熟悉Python编程,在学处理分析数据的模块
SQL: 上过introduction to database (standford), 能熟练用SQL
Hadoop and MapReduce: 上过intro to Hadoop and Mapreduce(Udacity.com), 会简单的设置,和MapReduce的简单应用

2. 机器学习
上了 Machine learning by Ng(coursera, 目前在跟Machine Learning specialization(U. W. Coursera)
了解 regression, logistic regression, decision trees, ensemble methods, classification, clustering, neural networks 的基本原理,能用Python 实现

3. 统计方面:
上了Descriptive statistics (Udacity.com), 以前学过随机过程,uncertainty quantification。
3. 数据分析,表述:
上过Introduction to Data Science (Udacity.com)

下一步打算学:
  • Rprogramming
  • recommendation system
  • A/B testing
  • NO SQL
. 留学申请论坛-一亩三分地

准备做些project,把知识点给串起来。


补充内容 (2016-7-27 10:14):
predictive modeling

补充内容 (2016-7-30 11:51):
completed course "Machine learning: clustering and retrieval" by U. W at coursera.org.
Learned: KNN, k-means using MapReduce, KD-trees, LSH, EM, LDA, Gibbs sampling

补充内容 (2016-9-4 09:34):
8月小结:
学了 R, ggplot2, dplyr, reshape2.
完成 "The Data Scientist's Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis" in JHU data science specialization (coursera), ...

补充内容 (2016-9-4 09:38):
8月小结续:
练习sql,完成“Managing Big Data with MySQL” at coursera.org. 留学申请论坛-一亩三分地
来源一亩.三分地论坛.
补充内容 (2016-10-1 10:12): 来源一亩.三分地论坛.
9月小结:
完成 "Reproducible research, Statistical inference, Regression models, Practical machine learning, Developing data products" in JHU data science specialization (coursera)

补充内容 (2016-10-1 10:16):
9月小结续:
learned Spark from "Hadoop Platform and Application Framework" (coursera).. 牛人云集,一亩三分地

补充内容 (2016-11-6 13:26):. Waral 博客有更多文章,
10月小结:
Learned MongoDB, Spark from "Big Data Integration and Processing" (coursera).
Finished "An Introduction to Interactive Programming in Python" by Rice University (coursera)-google 1point3acres

. From 1point 3acres bbs
补充内容 (2017-4-1 13:36):.1point3acres网
2016/10 - 2017/3

Finished Algorithm: design and alnalysis
Solved 200+ problems in Leetcode and cracking coding interview

补充内容 (2017-11-27 13:26):
Finished JHU data science Capstone (coursera)
Finished Robotics - ColumbiaX (edx)

补充内容 (2018-1-5 12:55):
Finished Probabilistic graphical models at Coursera

评分

3

查看全部评分

 楼主| DL 发表于 2017-4-4 11:55:54 | 显示全部楼层
4.1-3, 2017. From 1point 3acres bbs
. 一亩-三分-地,独家发布
Coursera Stanford NLP course:
Lecture 10 Relation extraction
Lecture 11 Maxent models and discriminative estimation
Lecture 12 Part of speech tagging

评分

1

查看全部评分

回复 支持 1 反对 0

使用道具 举报

 楼主| DL 发表于 2017-3-3 13:25:12 | 显示全部楼层
3.2, 2017

Lecture 3 word vector models in CS224d: Deep Learning for Natural Language Processing

Leetcode p32

评分

1

查看全部评分

回复 支持 1 反对 0

使用道具 举报

 楼主| DL 发表于 2017-2-6 08:24:18 | 显示全部楼层
zzx498636727 发表于 2017-2-5 06:45. 一亩-三分-地,独家发布
楼主您好,

想问一下您每天时间管理是怎样的,我硕士在读感觉上课都很吃不消,希望您能分享下time sched ...

现在晚上2-3个小时刷题。刷题开cheat 模式, 先想5分钟,然后看discuss。刷题过了就挺开心,都没去优化。我这强度和你正规上课没法比,而且要求也不同。. from: 1point3acres
你觉的上课都吃不消,那可能课负荷大,或者缺先修课。有人比你轻松是他以前花功夫了,你也会有那么一天的。 来源一亩.三分地论坛.

我以前也热衷于时间管理,还看了些书,总的来说对我作用不大,这东西因人而异。我的体会是想要提高效率,最好的是干自己喜欢干的事,而且事成后能给你满足感。研究表明长时间给自己太大压力会降低效率。所以平时多鼓励自己,少刺激自己,干完后给自己一些奖励。打个俗气的比方,比如说我就想着刷一道题赚$20,这样一来刷题就没那么难受了。即使是参考别人的code,也可以鼓励自己说读code能力提高了。. 牛人云集,一亩三分地
我现在每天都阿Q地对自己说,我今天干的不错了。

评分

1

查看全部评分

回复 支持 1 反对 0

使用道具 举报

 楼主| DL 发表于 2016-10-1 10:35:07 | 显示全部楼层
下一步打算学习和加强:
  • MongoDB, Hive, SQL
  • Data mining, NLP
  • recommendation system
  • A/B testing
  • Python
  • Algorithm. 一亩-三分-地,独家发布


书单:.留学论坛-一亩-三分地
  • Introduction to Statistical Learning in R
  • Elements of Statistical Learning
  • Introduction to algorithms, 3rd edition
  • Python machine learning
  • Applied predictive modeling
  • Advanced Analytics with Spark



回复 支持 1 反对 0

使用道具 举报

earlgrey 发表于 2016-7-26 11:00:38 | 显示全部楼层
SMART experiments 具体指啥?我简单搜了下,没有看到很特别的解释,还是我错过了什么?
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-26 11:46:04 | 显示全部楼层
7-25-2016
Watched week 5 lecture in Machine learning: Clustering & Retrieval (U. W, Coursera), but do not understand.
Downloaded 2 papers on mixed membership modeling.. 1point3acres

Read 12.1-12.3 in Book "Data Science in R: A Case Studies Approach to Computational Reasoning and Problem solving"

Plan to follow this case study to explore data science job postings by web scraping and text mining.
. 牛人云集,一亩三分地
Tasks
  • Write general code to scrape data from HTML pages
  • Process the data
  • Identify the most frequent skills in the job postings
  • Cluster jobs into groups
  • Find top 5 hiring domains
  • Plot geographical distribution of the hiring companies
  • Visualize salary ranges for different job types, domains, and locations
  • Ask and answer more questions-google 1point3acres


what to learn from this mini project
  • Python and R
  • Web scraping: API, XML, HTML, XPath,
  • Data Wrangling: Regular expressions, Parsing csv, xml, json files
  • Text Mining
  • Clustering and Retrieval
  • Visualization
  • Hypothesis testing. from: 1point3acres



评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-26 11:58:30 | 显示全部楼层
earlgrey 发表于 2016-7-26 11:00
SMART experiments 具体指啥?我简单搜了下,没有看到很特别的解释,还是我错过了什么?

我正在学统计方面的知识,这个是我从Udacity上拷来的,SMART是 (Specific, Measurable, Actionable, Realistic, Timely) 的缩写。具体是什么我也不知道,只是好奇列上了。
回复 支持 反对

使用道具 举报

earlgrey 发表于 2016-7-26 12:04:12 | 显示全部楼层
DL 发表于 2016-7-26 11:58
我正在学统计方面的知识,这个是我从Udacity上拷来的,SMART是 (Specific, Measurable, Actionable, Real ...

ic
lz可以在首楼补充下你自己的背景,学过什么,哪些熟练,哪些基本知道,这样大家给建议或者参考你的清单的时候比较有帮助
例如你没有列的东西不是不重要,只是你都会了
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-26 12:09:51 | 显示全部楼层
earlgrey 发表于 2016-7-26 11:00
SMART experiments 具体指啥?我简单搜了下,没有看到很特别的解释,还是我错过了什么?

欢迎小牛牛来指导。还是你的帖子激励我来打卡的。
回复 支持 反对

使用道具 举报

小K 发表于 2016-7-26 14:06:23 | 显示全部楼层
regression, prediction什么的好像没有包括?
ab test 应该算hypothesis test 的一种应用?
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-27 10:13:07 | 显示全部楼层
小K 发表于 2016-7-26 14:06
regression, prediction什么的好像没有包括?
ab test 应该算hypothesis test 的一种应用?

谢谢K姐, 这就加上
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-27 10:17:29 | 显示全部楼层
7-26-2016
watched Topic modeling by Blei at videolectures.net
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-28 12:24:02 | 显示全部楼层
7-27-2016
read chapter 3 (CSV, JSON, XML data) in Data Wrangling with Python
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-29 11:30:06 | 显示全部楼层
7-28-2016.1point3acres网

finished week 5 homework of Machine learning: Clustering & Retrieval (U. W, Coursera)

read chapter 2.1-2.3 in book - Introduction to statistical learning
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-30 11:42:15 | 显示全部楼层
7-29-2016 来源一亩.三分地论坛.

finished week 6 lecture and homework in Machine learning: Clustering & Retrieval (U. W, Coursera)

read chapter 2.4-2.R in book - Introduction to statistical learning
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-31 12:09:52 | 显示全部楼层
7-30-2016. 1point 3acres 论坛
. 一亩-三分-地,独家发布
watched ch2 video in Statistical learning
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-1 11:51:02 | 显示全部楼层
7-31-2016
.1point3acres网
watched R Basics in Data analysis with R (Udacity). more info on 1point3acres

went through week 1-2 lectures in The data scientist's toolbox (JHU, Coursera.org)
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-2 11:28:05 | 显示全部楼层
8-1-2016

watched Explored One Vaiable in Data analysis with R (Udacity)

went through week 3-4 lectures in The data scientist's toolbox (JHU, Coursera.org)
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-3 12:33:22 | 显示全部楼层
本帖最后由 DL 于 2016-8-3 12:34 编辑

8-2-2016
. Waral 博客有更多文章,
finish Problem Set: Explored One Variable in Data analysis with R (Udacity)

. from: 1point3acres finish week 1 lecture in R Programming (JHU, Coursera.org).本文原创自1point3acres论坛
read chapter 3.1-3.2 in book - Introduction to statistical learning



回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-4 12:38:42 | 显示全部楼层
8-3-2016

finish week 2 lecture in R Programming (JHU, Coursera.org)
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-5 13:23:38 | 显示全部楼层
8-4-2016

finished week 3 lecture in R Programming (JHU, Coursera.org)
learned: lapply, sapply, vapply, mapply, tapply, split, and lexical scoping

回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-6 12:01:16 | 显示全部楼层
8-5-2016. 1point 3acres 论坛

finished week 4 lecture in R Programming (JHU, Coursera.org)
.本文原创自1point3acres论坛
notes: random sampling, Rprof, System.time, random distributions func.         
d-density, p-cumulative, r-random variates, q-quantile
.1point3acres网



回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-7 11:55:01 | 显示全部楼层
8-6-2016

Week 1 lecture in Getting and Cleaning Data (JHU, Coursera.org)

- Read and write excel file, xml, json, XPath, data.table
回复 支持 反对

使用道具 举报

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-5-21 05:46

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表