Google Data Scientist

darkestkun · 2019-10-20 08:32:06

注册一亩三分地论坛，查看更多干货！

您需要登录才可以下载或查看附件。没有帐号？注册账号

x

给自己定位不准确，应该面machine learning岗位而不是data scientist，所以挂了是正常的，相关题目都没有准备过。不过这一次面试题不是AB-test而是ANOVA，第一次学习到。觉得有必要分享下。尊重保密，我就擅自改编一下。

您好！
本帖隐藏的内容需要积分高于 200 才可浏览
您当前积分为 0。
使用VIP即刻解锁阅读权限或查看其他获取积分的方式

游客，您好！
本帖隐藏的内容需要积分高于 200 才可浏览
您当前积分为 0。
VIP即刻解锁阅读权限或查看其他获取积分的方式
Unlock interview details and practice with AI
Curated Interview Questions from Top Companies

suramao4 · 2019-11-12 07:34:48

我觉得，回答这个问题，最应该先问问，用怎么用这个分数。毕竟这个分数只是主观的，必须和某个客观的metric联系起来才有实际意义。比如亚马逊的rating，sort by rating之后更有可能购买。这个分数要拿来做啥是最重要的。

newyorkinspring · 2019-10-23 00:08:40

lisha0803 发表于 2019-10-22 08:26
感觉是可以用linear mixed effect model，X1,X2是关于news的信息，X3，X4是关于reviewer的信息，它们都作为 ...

感谢指出了linear mixed model，但我的理解是reviewer的信息是用来作为random effect的，X1,X2是fixed effect, X3,X4是random effect, 这两个信息dimension不同，不可能同时做fixed effects, 我觉得不需要加newsid这个新effect, 这个linear mixed model还有一个fixed intercept, 这个fixed intercept我觉得才是best score.

maxentropy · 2019-10-22 02:44:28

你可以继续投MLE呀，不会影响的。

不过我好像见过很多google hr都会建议统计、生统、生物信息的PhD尝试ds而不是MLE，我投了MLE也没反应，可真是不给面子啊。。。

newyorkinspring · 2019-10-21 23:49:09

这题我一点个人的想法是只要做一组regression score = w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4, 固定每一个news, 做一次based on 每个观众的regression, 得到一个constant w0做为这个news的best score, 如果有1000 news,就有1000个不同的w0这样就是unbiased 的scores. 概念上就有点像finance cpam model所说的alpha and beta, 我们现在要找的就是每个股票的alpha, 或者说是每个news的unbiased score. 请问楼主这跟anova有什么关系呢？

darkestkun · 2019-10-22 01:18:38

newyorkinspring 发表于 2019-10-21 23:49
这题我一点个人的想法是只要做一组regression score = w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4, 固定 ...

这就是anova呀。X1到X5都是离散变量。这里我写作w1, w5但其实不同category对应不同weight

newyorkinspring · 2019-10-22 01:33:35

darkestkun 发表于 2019-10-22 01:18.
这就是anova呀。X1到X5都是离散变量。这里我写作w1, w5但其实不同category对应不同weight

请问这些categorical feature是楼主自己提出来的，还是面试官给的原题提示。这题已经在地里出现很多次了，没人给出如何回答这个问题的思路。所以我想讨论一下。

X1 （category）10 levels
X2 timestamp 3 levels
X3 age 2 levels
X4 income bucket 5 levels

还有楼主提到要加第5个variable news_id, 感觉不大正确，news_id可以从0-1000

还有你提出的这个score = w0 + w1 * x1 + w2 * x2 + w3 * x3 _ w4 * x4 + w5 * X5model, sample是什么，是regression on 1000 news吗，然后每一个观众做一次这样的regression?

peachfly · 2019-10-22 05:03:46

嗯感觉就是在剔除一些已知的underlying dependency (x1-x4)，那就是针对每个news用100个点来做regression, 拟合的model就是被x1-x4解释的部分，用现在的score减去y-hat,是不是就是最客观的那个score了，取个均值？跟w0的关系还没想清楚

newyorkinspring · 2019-10-22 07:27:02

peachfly 发表于 2019-10-22 05:03
嗯感觉就是在剔除一些已知的underlying dependency (x1-x4)，那就是针对每个news用100个点来做regression ...

y - y_hat是error term是个normal distribution. 还有我后来又想过，如果对每个news做100个点的regression,那么只能用x3 and x4, 用不到x1 and x2, 如果在一个regression里又用x1,x2还用x3,x4我实在非常不理解，所以才问了楼主这x1,x4是怎么提出的？

lisha0803 · 2019-10-22 08:26:43

感觉是可以用linear mixed effect model，X1,X2是关于news的信息，X3，X4是关于reviewer的信息，它们都作为fixed effect来fit。加一个X5是newsid，作为random effect（相当于intercept）fit。最后X1-X4的coef说明了几个变量对score的影响，random effect则是每篇news的best score

Google Data Scientist

注册一亩三分地论坛，查看更多干货！

评分

相关帖子

浏览过的版块