一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

一亩三分地官方iOS手机应用下载
查看: 12495|回复: 225
收起左侧

[DataScience] DS 学习 - 打卡贴【欢迎指教】

[复制链接] |试试Instant~ |关注本帖
DL 发表于 2016-7-26 02:20:01 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
本帖最后由 DL 于 2016-7-26 12:51 编辑 . visit 1point3acres.com for more.

学习大纲


Programming
  • Python: numpy, pandas, matplotlib, scipy, scikit-learn
  • R: ggplot2, dplyr, reshape2
  • SQL, NO SQL
  • Data Wrangling: Regular expressions; Parsing csv, xml files
  • Data structure, Algorithm
  • Java, C/C++
  • JavaScript: web development

Machine learning
  • Supervised Learning
  • Unsupervised Learning
  • Reinforcement Learning

Communication. from: 1point3acres.com/bbs
  • Data Visualization
  • Data Presentation
  • Project Management. From 1point 3acres bbs

Statistics
  • Hypothesis testing
  • A/B testing
  • SMART experiments

Big data-google 1point3acres
  • Hadoop, MapReduce
  • Spark
  • MongoDB
  • Hive
. 1point 3acres 璁哄潧
本人以前工科背景,搞过数值计算方法,用C++写过工程应用软件。现打算转数据科学,通过学习, 初步掌握了以下一些知识点
1. 编程方面:
java: 上了coursera 上的algorithm I, II (Princeton),对算法和java有了一些了解
Python:熟悉Python编程,在学处理分析数据的模块
SQL: 上过introduction to database (standford), 能熟练用SQL
Hadoop and MapReduce: 上过intro to Hadoop and Mapreduce(Udacity.com), 会简单的设置,和MapReduce的简单应用
. 鍥磋鎴戜滑@1point 3 acres
2. 机器学习
上了 Machine learning by Ng(coursera, 目前在跟Machine Learning specialization(U. W. Coursera)
了解 regression, logistic regression, decision trees, ensemble methods, classification, clustering, neural networks 的基本原理,能用Python 实现
.鐣欏璁哄潧-涓浜-涓夊垎鍦
3. 统计方面:
上了Descriptive statistics (Udacity.com), 以前学过随机过程,uncertainty quantification。
3. 数据分析,表述:
上过Introduction to Data Science (Udacity.com)

下一步打算学:
  • Rprogramming
  • recommendation system
  • A/B testing
  • NO SQL


准备做些project,把知识点给串起来。


补充内容 (2016-7-27 10:14):
predictive modeling

补充内容 (2016-7-30 11:51):. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
completed course "Machine learning: clustering and retrieval" by U. W at Coursera.org.
Learned: KNN, k-means using MapReduce, KD-trees, LSH, EM, LDA, Gibbs sampling

补充内容 (2016-9-4 09:34):
8月小结:. 鍥磋鎴戜滑@1point 3 acres
学了 R, ggplot2, dplyr, reshape2. .鏈枃鍘熷垱鑷1point3acres璁哄潧
完成 "The Data Scientist's Toolbox, R programming, Getting and Cleaning Data, Exploratory Data Analysis" in JHU data science specialization (coursera), ...

补充内容 (2016-9-4 09:38):
8月小结续:
练习sql,完成“Managing Big Data with MySQL” at coursera.org

补充内容 (2016-10-1 10:12):
9月小结:
完成 "Reproducible research, Statistical inference, Regression models, Practical machine learning, Developing data products" in JHU data science specialization (coursera)

补充内容 (2016-10-1 10:16):
9月小结续:. 1point3acres.com/bbs
learned Spark from "Hadoop Platform and Application Framework" (coursera).

补充内容 (2016-11-6 13:26):
10月小结: 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
Learned MongoDB, Spark from "Big Data Integration and Processing" (coursera).
Finished "An Introduction to Interactive Programming in Python" by Rice University (coursera)

评分

2

查看全部评分

 楼主| DL 发表于 2017-3-3 13:25:12 | 显示全部楼层
关注一亩三分地公众号:
Warald_一亩三分地
3.2, 2017
. from: 1point3acres.com/bbs
Lecture 3 word vector models in CS224d: Deep Learning for Natural Language Processing

Leetcode p32
回复 支持 1 反对 0

使用道具 举报

 楼主| DL 发表于 2017-2-6 08:24:18 | 显示全部楼层
关注一亩三分地微博:
Warald
zzx498636727 发表于 2017-2-5 06:45. from: 1point3acres.com/bbs
楼主您好,

想问一下您每天时间管理是怎样的,我硕士在读感觉上课都很吃不消,希望您能分享下time sched ...

现在晚上2-3个小时刷题。刷题开cheat 模式, 先想5分钟,然后看discuss。刷题过了就挺开心,都没去优化。我这强度和你正规上课没法比,而且要求也不同。. 1point 3acres 璁哄潧
你觉的上课都吃不消,那可能课负荷大,或者缺先修课。有人比你轻松是他以前花功夫了,你也会有那么一天的。

我以前也热衷于时间管理,还看了些书,总的来说对我作用不大,这东西因人而异。我的体会是想要提高效率,最好的是干自己喜欢干的事,而且事成后能给你满足感。研究表明长时间给自己太大压力会降低效率。所以平时多鼓励自己,少刺激自己,干完后给自己一些奖励。打个俗气的比方,比如说我就想着刷一道题赚$20,这样一来刷题就没那么难受了。即使是参考别人的code,也可以鼓励自己说读code能力提高了。
我现在每天都阿Q地对自己说,我今天干的不错了。

评分

1

查看全部评分

回复 支持 1 反对 0

使用道具 举报

 楼主| DL 发表于 2016-10-1 10:35:07 | 显示全部楼层
下一步打算学习和加强:
  • MongoDB, Hive, SQL
  • Data mining, NLP
  • recommendation system
  • A/B testing
  • Python
  • Algorithm


书单:
  • Introduction to Statistical Learning in R
  • Elements of Statistical Learning
  • Introduction to algorithms, 3rd edition
  • Python machine learning
  • Applied predictive modeling
  • Advanced Analytics with Spark. Waral 鍗氬鏈夋洿澶氭枃绔,
. visit 1point3acres.com for more.

. 1point 3acres 璁哄潧
回复 支持 1 反对 0

使用道具 举报

earlgrey 发表于 2016-7-26 11:00:38 | 显示全部楼层
SMART experiments 具体指啥?我简单搜了下,没有看到很特别的解释,还是我错过了什么?
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-26 11:46:04 | 显示全部楼层
7-25-2016
Watched week 5 lecture in Machine learning: Clustering & Retrieval (U. W, Coursera), but do not understand.
Downloaded 2 papers on mixed membership modeling.. 1point 3acres 璁哄潧

Read 12.1-12.3 in Book "Data Science in R: A Case Studies Approach to Computational Reasoning and Problem solving"

Plan to follow this case study to explore data science job postings by web scraping and text mining.

Tasks
  • Write general code to scrape data from HTML pages
  • Process the data
  • Identify the most frequent skills in the job postings
  • Cluster jobs into groups
  • Find top 5 hiring domains
  • Plot geographical distribution of the hiring companies
  • Visualize salary ranges for different job types, domains, and locations
  • Ask and answer more questions


what to learn from this mini project.1point3acres缃
  • Python and R
  • Web scraping: API, XML, HTML, XPath,
  • Data Wrangling: Regular expressions, Parsing csv, xml, json files
  • Text Mining
  • Clustering and Retrieval
  • Visualization
  • Hypothesis testing. visit 1point3acres.com for more.



评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-26 11:58:30 | 显示全部楼层
earlgrey 发表于 2016-7-26 11:00
SMART experiments 具体指啥?我简单搜了下,没有看到很特别的解释,还是我错过了什么?

我正在学统计方面的知识,这个是我从Udacity上拷来的,SMART是 (Specific, Measurable, Actionable, Realistic, Timely) 的缩写。具体是什么我也不知道,只是好奇列上了。
回复 支持 反对

使用道具 举报

earlgrey 发表于 2016-7-26 12:04:12 | 显示全部楼层
DL 发表于 2016-7-26 11:58
我正在学统计方面的知识,这个是我从Udacity上拷来的,SMART是 (Specific, Measurable, Actionable, Real ...

ic
lz可以在首楼补充下你自己的背景,学过什么,哪些熟练,哪些基本知道,这样大家给建议或者参考你的清单的时候比较有帮助
例如你没有列的东西不是不重要,只是你都会了
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-26 12:09:51 | 显示全部楼层
earlgrey 发表于 2016-7-26 11:00
SMART experiments 具体指啥?我简单搜了下,没有看到很特别的解释,还是我错过了什么?
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
欢迎小牛牛来指导。还是你的帖子激励我来打卡的。
回复 支持 反对

使用道具 举报

小K 发表于 2016-7-26 14:06:23 | 显示全部楼层
regression, prediction什么的好像没有包括?
ab test 应该算hypothesis test 的一种应用?
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-27 10:13:07 | 显示全部楼层
小K 发表于 2016-7-26 14:06
regression, prediction什么的好像没有包括?
ab test 应该算hypothesis test 的一种应用?

谢谢K姐, 这就加上
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-27 10:17:29 | 显示全部楼层
7-26-2016.鏈枃鍘熷垱鑷1point3acres璁哄潧
watched Topic modeling by Blei at videolectures.net
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-28 12:24:02 | 显示全部楼层
7-27-2016 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
read chapter 3 (CSV, JSON, XML data) in Data Wrangling with Python
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-29 11:30:06 | 显示全部楼层
7-28-2016

finished week 5 homework of Machine learning: Clustering & Retrieval (U. W, Coursera)

read chapter 2.1-2.3 in book - Introduction to statistical learning
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-30 11:42:15 | 显示全部楼层
7-29-2016

finished week 6 lecture and homework in Machine learning: Clustering & Retrieval (U. W, Coursera). from: 1point3acres.com/bbs
. 1point3acres.com/bbs
read chapter 2.4-2.R in book - Introduction to statistical learning
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-7-31 12:09:52 | 显示全部楼层
7-30-2016

watched ch2 video in Statistical learning
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-1 11:51:02 | 显示全部楼层
7-31-2016-google 1point3acres

watched R Basics in Data analysis with R (Udacity)

went through week 1-2 lectures in The data scientist's toolbox (JHU, Coursera.org)
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-2 11:28:05 | 显示全部楼层
8-1-2016
-google 1point3acres
watched Explored One Vaiable in Data analysis with R (Udacity)

went through week 3-4 lectures in The data scientist's toolbox (JHU, Coursera.org)
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-3 12:33:22 | 显示全部楼层
本帖最后由 DL 于 2016-8-3 12:34 编辑

8-2-2016. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

finish Problem Set: Explored One Variable in Data analysis with R (Udacity)

finish week 1 lecture in R Programming (JHU, Coursera.org)
read chapter 3.1-3.2 in book - Introduction to statistical learning



回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-4 12:38:42 | 显示全部楼层
8-3-2016. 鍥磋鎴戜滑@1point 3 acres

finish week 2 lecture in R Programming (JHU, Coursera.org)
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-5 13:23:38 | 显示全部楼层
8-4-2016. 鍥磋鎴戜滑@1point 3 acres

finished week 3 lecture in R Programming (JHU, Coursera.org)
learned: lapply, sapply, vapply, mapply, tapply, split, and lexical scoping
.鐣欏璁哄潧-涓浜-涓夊垎鍦
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-6 12:01:16 | 显示全部楼层
8-5-2016

finished week 4 lecture in R Programming (JHU, Coursera.org)
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
notes: random sampling, Rprof, System.time, random distributions func.         
d-density, p-cumulative, r-random variates, q-quantile . From 1point 3acres bbs



. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
回复 支持 反对

使用道具 举报

 楼主| DL 发表于 2016-8-7 11:55:01 | 显示全部楼层
8-6-2016
.鐣欏璁哄潧-涓浜-涓夊垎鍦
Week 1 lecture in Getting and Cleaning Data (JHU, Coursera.org). From 1point 3acres bbs

- Read and write excel file, xml, json, XPath, data.table
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2017-3-23 12:37

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表