一亩三分地

 找回密码 注册账号

扫描二维码登录本站

BBS
Offer多多
Salarytics
交友
Learn
Who's Hiring?
Visa Tracker
疫情动态
指尖新闻
Instant
客户端
微信公众号
扫码关注公众号
留学申请公众号
扫码关注留学申请公众号
Youtube频道
留学博客
关于我们
查看: 3207|回复: 25
收起左侧

亚麻DS店面挂经

[复制链接] |只看干货 |amazon, 分析|数据科学类, 面试经验, 数科面经
我的人缘0

升级   41.86%


分享帖子到朋友圈
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (12)
 
 
0% (0)    👎

2020(7-9月) 分析|数据科学类 硕士 全职@Amazon - 内推 - 技术电面  | Fail/Rej | 在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
电面一个小时。白人面试官。40分钟问statistical modeling相关的问题。20分钟面一道SQL。. From 1point 3acres bbs
首先让我自我介绍。然后开始问问题。

问题包括:
1. p-value
  • 解释什么是p-value
  • 取值范围

2. 假设你不知道sales, 可以怎么simulate?(这个问题听得我一头雾水。后来面试官换了种方式,问sales服从什么分布。这道题不知道什么答案。有小伙伴能解释一下这题吗)
3. linear regression
  • 解释multicollinearity; 如何解决
  • 为什么有multicollinearity会使得coefficients不稳定
  • 如果有些coefficients按常理不应该是负
    游客,本帖隐藏的内容需要积分高于 188 才可浏览,您当前积分为 0。
    查看如何攒积分 Click here for more info.
    的平均值,今年与去年的差值中,最大的前三个是哪些产品。

    面挂的原因之一是SQL没那么熟练,前面回答statistical modeling的题目有些也不知道是对是错,而且面试时候太紧张了。

评分

参与人数 9大米 +11 收起 理由
s11012 + 2 很有用的信息!
Mysticcc + 1 给你点个赞!
tuzkizhe + 2 给你点个赞!
虎子77 + 1 赞一个
sdou_lively + 1 Great info!
layla_sun + 1 赞一个
XiangOAJZ + 1 很有用的信息!
itscristiano + 1 赞一个
xiaoxiongbaby + 1 赞一个

查看全部评分


上一篇:Capital One DS(以及DA, QUANT, BA)面试流程加面经
下一篇:【面试经验】新鲜麦肯锡 mckinsey analyst电面面经

本帖被以下淘专辑推荐:

我的人缘0

升级   0.86%

w3e4NB 2020-7-30 23:08:34 | 显示全部楼层
本楼: 👍   100% (3)
 
 
0% (0)   👎
全局: 👍   98% (277)
 
 
1% (3)    👎
闵医事豆吉拉 发表于 2020-7-30 22:58
这不是obvious的吗,怎么就没道理了。

对我来说不是很 obvious 吧

我没见到有文章解释 multicollinearity 如何令 expected RMSE 不变的。也没有见到有文章解释 multicollinearity 如何令 variable importance (e.g. Gini, SHAP) 不变的。反倒是有很多文章讨论 multicollinearity 会影响 variable importance. 例如:https://explained.ai/rf-importance/#intro

当然了,我主要是觉得 "decision tree 对 multicollinearity robust" 这个 statement 本身就很模棱两可。Robust in what sense? 可能性有很多:
(1). 即便我的 X 有 multicollinearity,模型还是可以跑(不会报错)?
(2). 如果我加上一列新的 column X_{p+1} 使得 X_{p+1} 是 X_1, ..., X_p 的线性组合,decision tree 会在两个数据集上训练出一样的模型?
(3). 又或者模型不一定完全一样,但是几乎一样?不过这应该如何量化呢?

而且考虑到大家所说的 multicollinearity 很多时候不是指 perfect multicollinearity,而是 nearly perfect multicollinearity. (比如 OLS 下的,perfect multicollinearity 根本无法求解了)那么 nearly perfect multicollinearity 如何影响 decision tree 呢?

decision tree 也有很多不同的 variation,比如最常见的有 CART. 有些算法会涉及到 pruning,有些算法会先构造 histogram(比如 xgboost 的实现).

总而言之,我觉得这个 statement 比较模糊。表达清楚之后,可能也没有一个非常简单的回答。如果您有什么解释得非常清楚详细的资料,可以分享一下 🙏
回复

使用道具 举报

我的人缘0

升级   63%

2ndcat 2020-8-3 10:39:17 | 显示全部楼层
本楼: 👍   100% (2)
 
 
0% (0)   👎
全局: 👍   96% (499)
 
 
3% (17)    👎
multicollinearity  对Coefficient和Feature importance影响很大吧,即使是Tree Model也一样, 怎么会说Tree Model会更Robust呢? 可以看看不同的feature importance 的方法: https://towardsdatascience.com/e ... forest-d9166011959e

还有这个讨论帖: https://stats.stackexchange.com/ ... tely%20can%20affect,which%20is%20implied%20by%20multicollinearity.-baidu 1point3acres

就通常来说,如果你做Random Forest, 有multicollinearity 的结果就是你Run几次model出来的feature importance, 有multicollinearity 的feature会随机出现其中之一,而不会同时出现,除非你设置Seed那每次出现的都是一样的结果。  大概原理就是算feature importance的方法没法Rank两个基本上差不多的feature,所以feature importance列表上可能只会随机选一个上去,regression也是,两个一本上一模一样的列,例如A和B, B和A基本是一样的, 那理论上B和A的prediction power是一样的,但是没法给他们assign 每个Column各一半的coefficient, 通常只会要么只选A Column, 或者B Column, 另外一个column的coefficient就会变得很低, 这是learning method的性质决定会这样的,用最小二乘法求Regression可能会同时得到几个解,例如2A + c = y 或者 2B + c = y 都是最优解,但是大概不会得出a +  b + c = y 这样的解。

评分

参与人数 1大米 +1 收起 理由
hannahzh + 1 赞一个

查看全部评分

回复

使用道具 举报

我的人缘0

升级   0.86%

w3e4NB 2020-7-30 22:34:49 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   98% (277)
 
 
1% (3)    👎
"为什么说decision tree对multicollinearity robust?"

我真的不理解 data science 界为什么有这么多没有道理却广为流传的 urban legends 😓
回复

使用道具 举报

我的人缘0

升级   59.5%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (19)
 
 
0% (0)    👎
感谢分享。请问楼主几年工作经验呢?
回复

使用道具 举报

我的人缘0

升级   24.86%

等待出嫁了 2020-7-23 11:07:12 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (9)
 
 
0% (0)    👎
Sales 是Poisson分布?probability of given number of events occrring in a fixed interval of time, on condition of events are indepedent of each other and a known average rate

评分

参与人数 1大米 +1 收起 理由
lambda_l1 + 1 赞一个!

查看全部评分

回复

使用道具 举报

我的人缘0

升级   50.57%

FinalLi 2020-7-23 11:21:18 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   75% (21)
 
 
25% (7)    👎
感谢楼主分享
回复

使用道具 举报

我的人缘0

升级   61.5%

不取名 2020-7-23 11:55:59 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (105)
 
 
0% (0)    👎
感谢楼主分享
回复

使用道具 举报

我的人缘0

升级   8.29%

本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
想问一下为什么说tree model对共线性robust? 我感觉tree model虽然训练的不是线性的关系但是共线性也会影响tree model的feature importance 比如多个feature如果一样的话他们的feature importance会被稀释而且也会使得model更容易overfit 不知道大家有什么看法
回复

使用道具 举报

我的人缘0

升级   8.29%

本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   84% (88)
 
 
15% (16)    👎
zyj5353 发表于 2020-07-22 21:52:31
想问一下为什么说tree model对共线性robust? 我感觉tree model虽然训练的不是线性的关系但是共线性也会影响tree model的feature importance 比如多个fe
只是robust不是完全不受影响,feature imprtance算法很多啊,不过因为引入了random所以一定程度上可以避免共线性。
就算你两个feature highly correlate ,用其中一个feature split就会包含另一个的信息所以不会对预测结果完成很大影响吧。
线性模型就直接不稳定了
回复

使用道具 举报

我的人缘0

升级   8.29%

本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   100% (24)
 
 
0% (0)    👎
lzchu1992 发表于 2020-07-22 22:33:07
只是robust不是完全不受影响,feature imprtance算法很多啊,不过因为引入了random所以一定程度上可以避免共线性。
就算你两个feature highly correlate ,
嗯 我感觉如果只考虑prediction的话 tree model和linear model其实共线性对model影响都不是很大 只不过linear model的系数做inference的话受共线性影响很大。 话说我以为这题本意是想说lasso 或者ridge regression毕竟ridge本来提出就是为了解决共线性的问题

评分

参与人数 1大米 +1 收起 理由
XiangOAJZ + 1 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0

升级   15%

fufulaijiayou 2020-7-23 23:49:50 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   98% (68)
 
 
1% (1)    👎
log normal可以吗。。。
回复

使用道具 举报

我的人缘0
XiangOAJZ 2020-7-24 00:39:51 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (289)
 
 
0% (1)    👎
请问楼主什么背景,cs还是stats?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://pay.1point3acres.com/tools/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版|||一亩三分地

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

Some icons made by Freepik from flaticon.com

快速回复 返回顶部 返回列表