一亩三分地

 找回密码 注册账号

扫描二维码登录本站


码农求职神器Triplebyte
不用海投
内推多家公司面试

Total Comp Calculator
输入offer信息
系统自动计算每年收入

科技公司如何
用数据分析驱动产品开发
coupon code 250off 立减$250

深入浅出AB Test
从入门到精通
coupon code 250off 立减$250
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
查看: 15884|回复: 111
收起左侧

Data Scientist new grad 面试考点总结 & 简短准备经历 【长文】

    [复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
崔小宝 | 显示全部楼层 |阅读模式
本楼: 👍   100% (148)
 
 
0% (0)   👎
全局: 👍   99% (371)
 
 
0% (1)    👎

2018(1-3月) 分析|数据科学类 硕士 全职@泛指 - 内推 - 其他  | Pass/Offer | fresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
大家好,由于积分日益减少,我把找工总结的存货贴出来,希望能帮助到大家。当然,跪求积分与大米,我现在连找房找室友都搜不起了,恳请爸爸们可怜我...认识我的爸爸们请更加可怜我呜呜...此贴只有我见到考点总结与简短的准备建议,如果大家觉得有用的话我可以另写帖子记录 获取面试的方式、部分公司的面试经历、还有一些心得体会。
  • 职位包含 DS/DA/Quant/Engineering Rotator/Big Data/Bio-statistician...
  • 大小中型公司、金融、IT、药企 都有...
  • DS 的考点又杂又多,我的策略:基础考点深刻全面、进阶考点点到为止(学霸请忽略这句话、我基础很差)
. 1point3acres

一、统计类基础
1. 1 概率论和分布
•        大数定律
•        中心极限定理
•        贝叶斯公式和条件概率
•        常见事件的分布、期望和方差
• 不同分布之间的关系
•        蓄水池抽样法了解一下(这个不知道归于哪一类,请允许我放这里)

1. 2 假设检验
•        一些基本概念,比如p-value, confidence interval
•        P-value怎样计算(离散分布/连续分布)
•        Bonferroni correction
•        假设检验下抽样分布的假设,包含检验正态性、齐方差、何时使用T-test、Z-test、基本的非参数检验;
•        要能够清楚地做出原假设和备择假设,并且已知 p-value时正确做出推断

1. 3 A/B TESTING
•        科技类公司会考,推荐Udacity里google 的 A/B test的课。
•        如何设计实验,如何选择合理的衡量metrics


1. 4 SIMULATION (就被考过一次). check 1point3acres for more.
• Inverse transformation
•        听说的没被考过,gibbs sampling


1. 5【准备经历】
• 我把同济大学《概率论和数理统计的》习题册、相关的简单例题做了两遍。
• 《A Practical Guide to Quantitative Financial Interviews》相关题目做了三遍,(用处:搞第一遍时想死,搞完三遍后变得对所有的统计应用题莫名有自信、并怀揣期待)
•        网络上的“统计 数学 面经”


二、ML/NLP - PROJECT相关
2. 1 一些建模的GENERAL问答
•        怎么找outlier
•        怎么搞missing value
•        怎样处理imbalanced data
•        Model evaluation 要清楚各个metrics的特点和适用情况
   a.        Cross-Validation、stratified cross-validation
   b. MSE,MAE,impurity function,cross-entrop,precision, recall, AUC, ROC, F1 …
• false positive 和 false negative:给出false positive比false negative更重要的例子
•        怎样选 feature
•        Overfitting, underfitting各自的表现和解决方式
•        Variance/bias trade-off
•        Out-of-bag sample
•        解释 gradient descent, stochastic gradient descent, mini-batch gradient descent…
•        Statistical learning 和machine learning的区别
• spherical hashing,我十分感觉这题超纲......不准备也罢。
•        没被考到过,但是个人觉得还是了解一下比较好的知识点:
   a.        Parametric / Non-parametric model
   b.        Generative / Discriminant model
   c.        Curse of dimension


2. 2 REGRESSION
•        线性回归的基本假设,违背基本假设时怎么办
•        如何衡量共线性,VIF. From 1point 3acres bbs
•        对比correlation和causation,分别如何测量
•        线性回归,对数据进行各种线性变换时模型怎么变,预测值、R方、系数等等怎么变. From 1point 3acres bbs
•        为什么OLS下残差和为零
•        根据residule plot和QQ-plot判断拟合得好不好
•        没被考到过但是我能想到的potential考点
   a.        Logistic 回归的参数怎么估计
   b.        Logistic回归的LOSS function的形式
   c.        线性回归中为什么使用OLS估计,OLS估计量的一些性质(BLUE)

2. 3 REGULARIZATION
•        对比Lasso 和Ridge
• 不同的编程语言Lasso的结果一样吗?不一样,因为grid不一样。我也不知道考这个干嘛。
•        L1 norm 和L2 norm
•        Regularization的估计系数是无偏的吗?

2. 4 TREE & ENSEMBLE
•        解释tree模型-baidu 1point3acres
•        解释random forest模型,并且对比着解释boosting 模型(GBT比较常考)
•        Random forest 和GBT 模型在编程语言中的可调参数
•        要知道random forest的每棵树最好造深一些,因为random forest更适用于low bias high variance; boosting model的每棵树不要太深
•        最欢什么模型?为什么?
• 总之建议了解下各个模型的优缺点,适用于什么情况,什么data,复杂度和计算量与什么有关。


2. 5 KNN
•        请解释KNN,然后把它的实现代码写出来。


2. 6 K-MEANS
•        请解释K-means,然后把它的实现代码写出来
•        怎么选k
•        怎么衡量结果(非监督学习,我猜面试官往往希望听到一些与domain people的合作)


2. 7 SVM
•        请解释SVM,(似乎任何模型都可能“解释该模型”)
•        什么是Support vector
•        请解释kernel trick, 为什么它kernel matrix是正定的
•        要知道SVM的复杂度依赖于什么,样本量还是变量数
•        解释SVM模型的几个重要参数


2. 8 ML相关的算法实现
•        我被考到过的有
游客,本帖隐藏的内容需要积分高于 188 才可浏览,您当前积分为 0。
查看如何攒积分 Click here for more info.
/strong>

•        Introduce yourself / walk me through your resume. From 1point 3acres bbs
•        Why us
•        Why you
•        Fail to do anything? what did you learn from that?
•        Biggest accomplishment
•        Negative / positive teamwork experience
•        Strength / weakness
•        Multi-task priority
•        Ask for help / help others – example
•        How do you see yourself in five years / career interest
•        Why choose statistics, why choose math (我math的本科)
•        Example solving difficulties / difficult time
•        Example persuade others
•        Example explaining technical concept to non-technical people
•        Example you use your intelligence in life event
•        Example of critical thinking
•        Others’ quality that you wish you have but you don’t
•        Biggest change after you came to US
【准备经历】:总结改造一些真实事例做模板;这类问题最重要的是 让面试官觉得舒服...


---------------------------------------
@版主大人:我真是想手动【精华】这个帖子,基本都是跪面试换来的考点,求个分呀求个米






-baidu 1point3acres


评分

参与人数 332大米 +604 收起 理由
kelly11 + 1 给你点个赞!
吴邦毅 + 1 很有用的信息!
sunshine_xu + 1 赞一个
godeyes + 1 很有用的信息!
情书青色珊瑚礁 + 1 很有用的信息!
Ronalchan + 1 赞一个
runspoon + 1 给你点个赞!
srjalan + 1 给你点个赞!
SpencerSi + 1 很有用的信息!
peppertalk + 1 很有用的信息!

查看全部评分


上一篇:Quantifind DS
下一篇:Two Sigma OA挂经

本帖被以下淘专辑推荐:

我的人缘0
admin 2019-4-23 01:04:50 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   93% (1578)
 
 
6% (105)    👎
本文被选为04/05/2019全站置顶文章之一。
作者获得大米奖励。谢谢你的分享。
回复

使用道具 举报

我的人缘0
本楼: 👍   100% (40)
 
 
0% (0)   👎
全局: 👍   100% (76)
 
 
0% (0)    👎
看看你写的这些 我感觉我离找到工作太远了
回复

使用道具 举报

我的人缘0
zzrdwj 2019-4-23 09:04:38 | 显示全部楼层
本楼: 👍   100% (13)
 
 
0% (0)   👎
全局: 👍   84% (332)
 
 
15% (61)    👎
帮楼主补充几个常见的点:
1,概率:高频题目 rejection sampling,例如如何用一个random(2)随机数函数生成random(3)
2,Optimization:很重要的部分,包括基本的gradient decent, sgd,神经网络的bp,epoch和batch变化对训练结果影响,牛顿法(曾被考到过列举一个非gradient方法),lasso如何优化(不可导函数凸优化问题,用lar或者pgd)
3,线性代数:pca原理,factor analysis和pca异同,svd,矩阵求逆,矩阵运算复杂度,为什么collinearity引起over fitting(协方差阵特征根接近0)
4,时间序列模型:(s)arima,hmm原理,rnn和lstm和gru异同
5,emsemble tree:xgboost和gbm差别,一般说泰勒级数就行了

评分

参与人数 18大米 +21 收起 理由
SpencerSi + 1 很有用的信息!
Sybilye + 2 给你点个赞!
w5207 + 1 赞一个
xhlzyllx + 1 给你点个赞!
巴普洛夫的猫 + 2 很有用的信息!
ltang1839 + 1 给你点个赞!
shirrleyyy + 1 赞一个
puranustc + 1 谢谢分享!
派大星 + 1 赞一个
Constan + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘1
tianjiayangmike 2019-4-22 13:02:29 | 显示全部楼层
本楼: 👍   100% (5)
 
 
0% (0)   👎
全局: 👍   100% (67)
 
 
0% (0)    👎
楼主有心了,我自己也在做类似的东西,希望楼主能允许我把你这篇文章的一部分融合进去作补充~-baidu 1point3acres
想问下楼主最后去哪里了~
回复

使用道具 举报

我的人缘0
本楼: 👍   100% (4)
 
 
0% (0)   👎
全局: 👍   100% (36)
 
 
0% (0)    👎
好文章。。我我我看了之后感觉还是找sde好了。。
回复

使用道具 举报

我的人缘0
本楼: 👍   100% (4)
 
 
0% (0)   👎
全局: 👍   100% (35)
 
 
0% (0)    👎
感觉很全面啊 作为面试官最近的感觉就是如果能答出来这些问题 性格不错脑子活沟通能力不错offer绝对稳了 可是很多人简历写的贼好看一问连bayes formula都不知道
回复

使用道具 举报

我的人缘0
novavistamn 2019-5-12 21:23:50 | 显示全部楼层
本楼: 👍   100% (2)
 
 
0% (0)   👎
全局: 👍   78% (33)
 
 
21% (9)    👎
在职ds的表示我组tech lead都答不出来这些问题==b
贡献一下我们组面试常用的几个问题:
1) What's stochastic gradient descent?
2) How to deal with very imbalanced dataset?
3) How to deal with sparse matrix?
4) Why xgboost performs better than linear regression?
5) How to prevent data leakage?

评分

参与人数 3大米 +3 收起 理由
SpencerSi + 1 很有用的信息!
yiren1201 + 1 很有用的信息!
崔小宝 + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0
本楼: 👍   100% (2)
 
 
0% (0)   👎
全局: 👍   100% (11)
 
 
0% (0)    👎
算法题真的基本不怎么考吗?怎么很多人说DS越来越多算法题
回复

使用道具 举报

我的人缘0
HellVicky 2019-4-23 06:52:57 | 显示全部楼层
本楼: 👍   100% (2)
 
 
0% (0)   👎
全局: 👍   96% (31)
 
 
3% (1)    👎
谢谢lz分享!不过我通篇最注意的点还是这个字体,真是高度近视患者的福音呢,看着巨爽hhh
回复

使用道具 举报

我的人缘0
zzrdwj 2019-4-24 12:23:49 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   84% (332)
 
 
15% (61)    👎
zhang.chi1 发表于 2019-4-24 11:26
楼主你好,想问一下你说到线性回归违背基本假设的话。都有什么解决办法啊?谢谢了,给lz加密了。感觉

statistical inference这本书上应该都有,一般来说有wls,对变量进行变换,处理异常值
回复

使用道具 举报

我的人缘0
白沂秋 2019-4-24 04:15:41 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   66% (16)
 
 
33% (8)    👎
thanks for sharing!!!
回复

使用道具 举报

我的人缘0
方软软 2019-4-22 11:52:27 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   98% (51)
 
 
1% (1)    👎
太有用了!!!给楼主点赞
回复

使用道具 举报

我的人缘0
xiaohan0425 2019-4-22 12:20:04 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   98% (159)
 
 
1% (2)    👎
谢谢lz分享!!超级有用!!
回复

使用道具 举报

我的人缘0
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   99% (371)
 
 
0% (1)    👎
tianjiayangmike 发表于 2019/04/22 13:02:29
楼主有心了,我自己也在做类似的东西,希望楼主能允许我把你这篇文章的一部分融合进去作补充~
想问下楼主最后去哪里了~

欢迎欢迎,能被 注明引用 很开心~ 等你总结好啦写好了也求分享嘻嘻!😊
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (3)
 
 
0% (0)    👎
感谢楼主分享,一起加油!
回复

使用道具 举报

我的人缘0
f.tumblr.oath 2019-4-22 21:11:43 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   50% (1)
 
 
50% (1)    👎
Thanks for sharing
回复

使用道具 举报

我的人缘0
sherry1228 2019-4-22 21:43:53 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (2)
 
 
0% (0)    👎
赞一下~~~~~
回复

使用道具 举报

我的人缘0
光影流转 2019-4-22 23:13:26 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (57)
 
 
0% (0)    👎
已加米,感谢lz详细的分享!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法 - 不要多加空格: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版||一亩三分地

GMT+8, 2019-8-24 21:27

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表