查看: 5567|回复: 38
收起左侧

DS DA 复习找工作 分类整理资料汇总 2021 (持续更新) 回报地里

    |只看干货

分享帖子到朋友圈
本楼: 👍   100% (17)
 
 
0% (0)   👎
全局: 👍   100% (77)
 
 
0% (0)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
本帖最后由 xueguqing 于 2021-3-5 12:06 编辑

背景 Situation
  • 本人Econ PhD, 博后,之前field experiments做的比较多,和业界公司也有一些合作
  • 基于个人兴趣,未来work life balance的考虑,以及北美学术教职的竞争激烈程度,终于下定决心转行DS去业界。
  • 基于以往经历,对produce sense和 AB Testing 相对比较有信心。但Programming 需要好好加强,很熟悉Stata (但业界不用…),R 入门级别(但感觉业界用Python更多?),SQL 和Python 是从零学起。
  • 因为还在全职工作,只能利用晚上和周末复习。自己复习了一段时间,但投入时间不够。犹豫要不要参加Part-time DS Bootcamp,主要是想用Peer Effect 督促自己复习和面试。
  • 计划下个月开始一边面试部分公司,一边继续完善技能。先从DA面试开始练习(因为需要的技能相对没有那么多),然后DS。MLE需要更加专业的技能,如果后面有时间再考虑。
  • 超级感谢地里众多资料,个人比较喜欢整理和规划,也希望分享给地里的小伙伴,希望都顺利上岸。


目标(任务)Task
  • 优先复习DA需要的技能,然后面试公司提高经验
  • 增加DS需要的技能,面试Target 公司;希望到年底拿到多个offer,解决工作和签证问题(这个后面单独开贴讨论)
  • 找到情况类似一起复习找工作的小伙伴(或小组),相互督促和鼓励,共同进步


复习资料整理 Action
  • 资料框架
          - 前面会按照技能分类整理出推荐的资料,包括网课、书、问题总结、blog等。          - 顺序:SQL, Statistics & Probability,AB Testing/Experiment, Product Sense / (Take Home) Data Challenge,Python, BQ, machine Learning
          - 各部分整理过程中为了方便,也从其他帖子里直接复制了不少内容,在最后帖子汇总里列出。         
          - 后面“帖子汇总”列出了地里以及其他网站我参考整理是用到的帖子;感兴趣的可以点击进去仔细阅读。对一些帖子根据我的理解注明了特点,个人观点仅供参考,不一定准确。
          - 资料不是越多越好,一定要根据自己情况考虑投入产出比。我把同类资料里推荐较多或评价较好的排在前面,欢迎交流。选择适合自己的最重要。
  • 资料分享:汇总里有一些书和汇总pdf,尽量附上原帖,鼓励购买支持正版。确实有经济困难的,可以见以下链接下载(资料不全,欢迎地里补充)。

SQL
  • 基础知识
        - W3school https://www.w3schools.com/sql/
        - SQLzoo https://sqlzoo.net/
        - Mode analytics https://mode.com/sql-tutorial/introduction-to-sql/
  • Course
        - Udacity, SQL for Data Analysis https://www.udacity.com/course/sql-for-data-analysis--ud198
        - CodeAcademy, Analyze data with SQL https://www.codecademy.com/learn/paths/analyze-data-with-sql
        - edx: IBM SQL for Data Science https://www.edx.org/es/course/sql-for-data-science
  • Practice
        - Facebook and other companies 面试题
        - HackerPank https://www.hackerrank.com/
      - 适合初学者
        - Leetcode https://leetcode.com/
      - 有一个Leetcode的题库和答案 https://drive.google.com/file/d/ ... bX/view?usp=sharing

Statistics & Probability
  • Course
        - Khan Academy Statistics and Probability https://www.khanacademy.org/math/statistics-probability
        - Duke Introduction to Probability and Data with R, coursera https://www.coursera.org/learn/probability-intro
        - JHU的Statistical Inference https://www.coursera.org/learn/statistical-inference
        - Duke, Inferential Statistics, Coursera, https://www.coursera.org/learn/inferential-statistics-intro
        - datacamp: https://www.datacamp.com/
            - Poisson distribution, exponential distribution, permutation, bootstrap
        - Introduction to Probability and Data with R 理清一些看似很基础但不一定清楚的统计概念 https://www.coursera.org/learn/probability-intro/home/welcome            
            - Good one, very practical, strongly recommend.
  • Interview question summary
          - 100+ Data Science Interview Questions You Must Prepare for 2021 https://www.edureka.co/blog/inte ... nterview-questions/. From 1point 3acres bbs
          - Statistics Interview Questions and Answers https://www.janbasktraining.com/ ... nterview-questions/
          - key concept (来自DS 面试 统计类问题 学习资料总结 https://www.1point3acres.com/bbs/thread-610533-1-1.html
                    1. P-value, significance level, confidence level, confidence interval
                    2. Common Distributions (pdf, mean, variance): Normal, Binomial, Bernoulli, Geometric, Poisson, Exponential
                    3. Central limit theorem and underlying assumption
                    4. Law of large number
                    5. Hypothesis testing and how to calculate the sample size for hypothesis testing
                    6. Estimator vs. estimate
                    7. Simpson's Paradox and correction formula
                    8. Bias-variance trade-off
                    9.  ANOVA
                    10.  Bootstrap
                    11. Type 1 and type 2 error
                    12. Precision vs. recall
                    13.  Z test and T-test (formula, underlying assumption)
                    14. Bayesian formula for conditional probability

AB Testing/Experiment
          - Notes:http://rpubs.com/superseer/ab_testing
          - A Summary of Udacity A/B Testing Course https://towardsdatascience.com/a ... course-9ecc32dedbb1
          - 评论
                   - 必看,入门
           - 很详细,但有时候比较琐碎,需要和一些课程交互理解
        - 总结
                   - Define metrics: sanity checking metrics, evaluation metrics
                   - Design experiments: unit of diversion, target population (population impacted by the treatment, increase statistical power), size of experiment (statistical power), duration of experiment (traffic allocation, novelty effects, change aversion)
                   - Analyze results: clean data, sanity checks (use sanity checking metrics defined in step 1), single evaluation metric (t-test, p value, type I error, type 2 error), multiple evaluation metrics (Bonferoni correction, FWER, FDR)
  • Paper & Book
        - Athey and Luca, 2019, Economists (and Economics) in Tech Companies https://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.33.1.209
                  - 很早读到的working paper,开阔了眼界,让我萌生了进入业界也挺好的想法
        - Conference papers
                  - KDD 2019, Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners https://exp-platform.com/Documen ... VermeerDmitriev.pdf
                  - KDD 2017, A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments https://www.kdd.org/kdd2017/pape ... ls-in-online-contro
                  - HBR 2017, The Surprising Power of Online Experiments: Getting the most out of A/B and other controlled tests https://exp-platform.com/hbr-the ... online-experiments/
        - Book
                  - Trustworthy Online Controlled Experiments : A Practical Guide to A/B Testing https://experimentguide.com/
                   - 有2017ABTestingTutorial https://exp-platform.com/2017abtestingtutorial/
                   - 应用性比较好
  • Blog and website
        - airbnb data science blog https://medium.com/airbnb-engineering/data/home
        - Towardsdatascience https://towardsdatascience.com
        - Data Science Weekly https://www.datascienceweekly.org/
        - Medium https://medium.com
        - Optimizely https://www.optimizely.com


Product Sense / (Take Home) Data Challenge
  • Books
        - Crack the PM interview
                  - Important Chapter:  estimation,product和case 最重要;其次是behavior
                  - 经典书,必读
        - A Collection of Data Science Take-Home Challenges https://datamasked.com
                  - 大概有40道产品题的答案
                  - Solution to the book "A Collection of Data Science Take-Home Challenges"  https://github.com/JifuZhao/DS-Take-Home
        - Case in points https://www.amazon.com/Case-Poin ... /ref=dp_ob_title_bk
                  - 评论:内容比较多,花费时间长
        - Lean Analytics
                  - 评论:产品题的入门书籍,了解不同business model和他们对应的metrics和frameworks
        - Decode and Conquer: Answers to Product Management Interviews https://www.amazon.com/Decode-Co ... /ref=dp_ob_title_bk-baidu 1point3acres
  • Course
        - Lynda Raynier’s Youtube Channel https://www.youtube.com/channel/UCXUyg1vYSupswhi0zNeD-5w
        - 一亩三分地 小k讲产品
  • Topic. check 1point3acres for more.
        - Leadership and how to influence others
        - A hard challenge faced and How to solve it
        - A true failure and how to turn it around
        - A proud success made with team together
        - Summary
                - Do as much as analysis as you can,but only showcase the most valuable findings - in a framed way
                - 如何frame solution? 我的看法是:describe图表-->总结出insights-->给出recommendation。describution,insight, recommendation是一个完整的逻辑闭环,它能帮助批卷子的人很快地明白了发现了什么,总结出了什么,并且依据你的总结准备建议出什么。
  • 答题思路
        - 1. Ask clarifying questions (what does the product do?, who is the product for? company mission, etc.). From 1point 3acres bbs
        - 2. Confirm with the interviewer what the goal of the product is (e.g. increasing conversion, revenue, engagement, retention, etc.)
        - 3. Layout the structure of your analysis (e.g. use products lifecycle like awareness, engagement, retention and monetization stages)
        - 4. Dive in each section of your analysis (e.g. for each stage, identify the behaviors that can be quantified with a metric)
        - 5. Summarize your analysis (restate what you talked about, and then prioritize key metrics from step 4 and state why)
  • Blog
        - 了解公司产品和基本思路
        - Airbnb, Uber, LinkedIn, Netflix, Lyft, Pinterest, Stitch Fix, Quora, Yelp

Python
  • Books
        - Learn Python 3 the Hard Way https://www.amazon.com/Learn-Pyt ... ction/dp/0134692888
                  - Exercise answers: https://github.com/wzpan/Learn-Python-The-Hard-Way
        - 数据结构和算法 Problem Solving with Algorithms and Data Structures using Python https://runestone.academy/runest ... pythonds/index.html
  • Course
        - udemy Python for Data Science and machine learning bootcamp: https://www.udemy.com/course/pyt ... e-learning-bootcamp
                  - 非常系统地教了pandas和seaborn
        - Intro to Computer Science https://www.udacity.com/course/intro-to-computer-science–cs101
                  - 非常浅显易懂的入门课程,有大量的上手编程训练,最后的项目也非常有趣。
        - Udemy Programming Foundations with Pytho https://www.udacity.com/course/p ... dations-with-python–ud036
                  - 涉及到class的构建和使用,调用函数
        - Udacity Intro to Data Analysis https://www.udacity.com/course/intro-to-data-analysis–ud170
                  - 讲了如何使用Numpy & Pandas,非常好学,好用
        - Datacamp course: pandas,matplotlib,seaborn
        - Stanford CS 41: The Python Programming Language https://stanfordpython.com/#/
                  - 评论:很基础,入门级别
  • Practice: Kaggle
                  - 资源
                           - Python: http://www.kaggle.com/learn/python
                           - Pandas: https://www.kaggle.com/learn/pandas
                           - Data Visualization: https://www.kaggle.com/learn/data-visualization
                           - Intro to machine Learning: https://www.kaggle.com/learn/intro-to-machine-learning
                           - Intermediate Machine Learning: https://www.kaggle.com/learn/intermediate-machine-learning
                           - Kaggle competitions  https://www.kaggle.com/competitions
                  - 评论:ROI可能不高,太花时间,适合想做的很好的


Behavior questions (BQ) / Past experience / Culture fit  -- 这部分总结比较少,更多内容见后面的帖子汇总
  • Method/Structure
       - STAR: Situation, Task, Action, Result. 1point3acres
       - Amazon leadership principles interview questions
  • Key points
       - 根据自己的经历,整理成几个故事(或分支),各有侧重
       - 要让面试官感兴趣,突出自己的能力


Machine Learning
  • Course
       - Sebastian, Intro to Machine Learning https://www.udacity.com/course/i ... utm_medium=referrer
       - Machine Learning: Regression at Coursera https://www.coursera.org/learn/ml-regression/home/welcome
       - Andrew Ng,  Machine Learning at Coursera https://www.coursera.org/learn/machine-learning/home/welcome
                - 评论:对于找工作不一定特别有用,比较理论,长期应该学
       - Youtube, Sentdex, Practical Machine Learning Tutorial with Python https://www.youtube.com/watch?v= ... Os3Keq_kaG2P55YRn5v
                - 评论:非常花时间
       - Datacamp: xgboost
  • Interview question summary
       - Machine Learning & Mathematics https://rpubs.com/JDAHAN/172473
  • Key concept
       - Decision tree and random forest

帖子汇总
  • DS/DA 整体
       - 一亩三分地
                - 数据科学学习清单+求职攻略 https://www.1point3acres.com/bbs/portal.php?mod=list&catid=6
                - 无偿分享下2个月内找到DS工作的经验和复习资料 https://www.1point3acres.com/bbs/thread-551582-1-1.html
                        - 评论:自己也总结和分享了很多的Cheat Sheet
                - 发一波DS面试准备经验总结回报地里 https://www.1point3acres.com/bbs ... science-483072.html
                        - 评论:
                         - 非常详细,链接做的很好
                         - 讲了比较多的关于behavior,product & case question以及take home challenge的个人总结
                         - 偏向DA analytics track
                - 商科转DS的硅谷找工作记录 https://www.1point3acres.com/bbs/thread-469131-1-1.html
                        - 评论:有个人经验总结,比较口语化
                - DS面试准备材料总结(附加product答题思路和SQL题库) https://www.1point3acres.com/bbs/thread-637777-1-1.htmlDA  DS面
                        - 评论:偏向DA analytics track
       - 其他网站
                - How to land a Data Scientist job at your dream company — My journey to Airbnb https://towardsdatascience.com/h ... airbnb-f6a1e99892e8
                        - 评论
                                - 英语写的很清楚,让人读了很受鼓励
                                - 有一些其他帖子里没有提到的材料,尤其是AB Testing
                - PhD转行之路 http://www.juyang.co/phd%E8%BD%AC%E8%A1%8C%E4%B9%8B%E8%B7%AF
                        - 评论
                                - 有明确的复习准备时间线. 1point3acres
                                - 提到的课程比较多
                - 一路披荆斩棘,我是如何成功拿到四大Data Scientist offer的?
                - 疫情之下数据分析求职发展的四点总结 . From 1point 3acres bbs
                - Moving from Academia to Industry: 10 Tips from Wayfair Data Science PhDs https://tech.wayfair.com/data-sc ... -data-science-phds/
                - 被裁的两个月内,我是怎么拿到4个数据科学的offer并把收入翻倍的
  • 分类知识
       - 面经
                - 一亩三分地数科面经 https://www.1point3acres.com/bbs/forum-259-1.html
                - 120 data science questions
                        - Link:  https://www.quora.com/q/learndatascience1/Answers-1
                        - Answer: https://github.com/kojino/120-Data-Science-Interview-Questions
                - Reddit Data Science Wiki: https://www.reddit.com/r/datasci ... graduate_degrees.3F
       - 统计
                - DS 面试 统计类问题 学习资料总结 https://www.1point3acres.com/bbs/thread-610533-1-1.html
                        - 评论:关于统计目前看到最好的帖子
       - Product Sence/Data Challenge
                - 回报地里,总结自己如何cracking the Data Challenge https://www.1point3acres.com/bbs/thread-326201-1-1.html
                        - 评论: 很详细,非常有用,7个步骤分析框架很清晰. From 1point 3acres bbs
       - Python data manipulation
                - 一些python data manipulation的资源的总结: https://www.1point3acres.com/bbs/thread-461232-1-1.html
       - SQL
                - 整理了leetcode上面所有的SQL题, PDF版本, 分享给大家,求大米呀 (2019年1月)https://www.1point3acres.com/bbs/thread-474445-1-1.html
       - BQ
              - DS常见的behavioral questions https://www.1point3acres.com/bbs/thread-469834-1-1.html
                       - 相关帖子 Behavioral Interview Questions https://biginterview.com/blog/behavioral-interview-questions
              - Behavior Interview https://sugarac.gitbooks.io/high ... rs/content/bq1.html
              - 关于Behavior Question的面试技巧最全总结 https://posts.careerengine.us/p/5b9ac78fb1ee625e899609fd

结果 Result
  • 目前还在复习和准备面试试水;后期等找到工作后,再分享面经和心得体会。
  • 整理不易,求加米( ′▽` )
  • 不太清楚地题帖子怎么排版,有高人指导的话,后续会更新改进






补充内容 (2021-3-5 16:12):
补充资料链接:https://www.dropbox.com/sh/38h0k ... e-LL8a1mt3ioEa?dl=0
内容:
1)  Books for Product Sense, Python, Becomeing a better programming
2)SQL Leetcode Question, Cheatsheet

评分

参与人数 78大米 +124 收起 理由
calvin127000 + 1 给你点个赞!
yyhz76 + 2 谢谢分享!
samt + 2 很有用的信息!
AmyBJQC + 1 赞一个
ItJustTakeABite + 2 给你点个赞!
xxshicheng + 1 赞一个
Jasper宇 + 1 赞一个
还休 + 1 给你点个赞!

查看全部评分


上一篇:求职业定位 T.T
下一篇:有人上过galvanize data science 的 bootcamp 吗?

本帖被以下淘专辑推荐:

 楼主| xueguqing 2021-3-7 12:52:56 来自APP | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (77)
 
 
0% (0)    👎
ciliaodeweixiao 发表于 2021-03-06 17:54:11
谢谢建议,还是一年接学生,现在主要是三高和r,还没定方向,可以选择的有public, finance, econometrics ,以前想做public下面的labor方向,感觉不太好找工作,有想转D
Labor做的人很多,教职竞争比较激烈。只是一年级那很早啊,不着急做决定,先看看学术方向的发展和兴趣吧。
回复

使用道具 举报

阿仓没有耳朵 2021-3-23 00:41:21 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (3)
 
 
0% (0)    👎
非常感谢分享!经济学MA读到一半正想gap转行!
回复

使用道具 举报

 楼主| xueguqing 2021-3-10 11:55:56 来自APP | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (77)
 
 
0% (0)    👎
nosense 发表于 2021-03-09 11:09:18. 1point3acres
看你们行业灌水paper的程度和citation涨的程度,不同行业差别很大,现在IO已经被数字导向化了,一上来就看google scholar文章数,citation数,尤其是NSC,特别难。
那看来我也得努力灌水了……
回复

使用道具 举报

nosense 2021-3-10 03:09:18 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (11)
 
 
0% (0)    👎
xueguqing 发表于 2021-3-9 12:36
这个是理想情况,但除非很快eb1a并且学术成绩很好,要不然很难。

看你们行业灌水paper的程度和citation涨的程度,不同行业差别很大,现在IO已经被数字导向化了,一上来就看google scholar文章数,citation数,尤其是NSC,特别难。
回复

使用道具 举报

FinalLi 2021-3-9 13:07:43 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   77% (24)
 
 
22% (7)    👎
感谢楼主分享和整理
回复

使用道具 举报

 楼主| xueguqing 2021-3-9 12:36:34 来自APP | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (77)
 
 
0% (0)    👎
nosense 发表于 2021-03-08 10:10:54
postdoc期间最好搞定绿卡
这个是理想情况,但除非很快eb1a并且学术成绩很好,要不然很难。
回复

使用道具 举报

 楼主| xueguqing 2021-3-9 12:35:52 来自APP | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (77)
 
 
0% (0)    👎
UCB鸭 发表于 2021-03-08 05:14:56. check 1point3acres for more.
感觉很像discord的群友哈哈
可能情况比较类似
回复

使用道具 举报

goodluckrr 2021-3-9 03:16:15 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
xueguqing 发表于 2021-3-7 12:49
身份问题我也考虑了很久。如果是j1博后,去业界要不h1b,要不O1,此外还涉及J 2年waiver的问题。 H1b 抽中 ...

是的,我现在目前还是opt,有另一半但他也在找工作,唉压力还是挺大的
回复

使用道具 举报

nosense 2021-3-9 02:10:54 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (11)
 
 
0% (0)    👎
goodluckrr 发表于 2021-3-7 11:17
我也是postdoc想转行,不过我是理工科的,还有点担心身份问题

postdoc期间最好搞定绿卡
回复

使用道具 举报

UCB鸭 2021-3-8 21:14:56 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (23)
 
 
0% (0)    👎
感觉很像discord的群友哈哈
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://tools.1point3acres.com/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

>
快速回复 返回顶部 返回列表