回复: 10
跳转到指定楼层
上一主题 下一主题
收起左侧

Google Data Scientist

全局:

2020(10-12月) 分析|数据科学类 博士 全职@google - Other - 技术电面  | | Fail | 应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
给自己定位不准确,应该面machine learning岗位而不是data scientist,所以挂了是正常的,相关题目都没有准备过。不过这一次面试题不是AB-test而是ANOVA,第一次学习到。觉得有必要分享下。尊重保密,我就擅自改编一下。
您好!
本帖隐藏的内容需要积分高于 200 才可浏览
您当前积分为 0。
使用VIP即刻解锁阅读权限或查看其他获取积分的方式
游客,您好!
本帖隐藏的内容需要积分高于 200 才可浏览
您当前积分为 0。
VIP即刻解锁阅读权限查看其他获取积分的方式
Unlock interview details and practice with AI
Curated Interview Questions from Top Companies

评分

参与人数 8大米 +26 收起 理由
averageds + 1 谢谢分享!
YahooZhang + 2 很有用的信息!
新泽西学渣 + 1 很有用的信息!
YilunNWLV + 2 给你点个赞!
匿名用户-F3WFQ + 16

查看全部评分


上一篇:Mckinsey Data Scientist OA 新鲜考完~timeline分享~
下一篇:Wayfair OA
推荐
suramao4 2019-11-12 07:34:48 | 只看该作者
全局:
我觉得,回答这个问题,最应该先问问,用怎么用这个分数。毕竟这个分数只是主观的,必须和某个客观的metric联系起来才有实际意义。比如亚马逊的rating,sort by rating之后更有可能购买。这个分数要拿来做啥是最重要的。
回复

使用道具 举报

全局:
lisha0803 发表于 2019-10-22 08:26
感觉是可以用linear mixed effect model,X1,X2是关于news的信息,X3,X4是关于reviewer的信息,它们都作为 ...

感谢指出了linear mixed model,但我的理解是reviewer的信息是用来作为random effect的,X1,X2是fixed effect, X3,X4是random effect, 这两个信息dimension不同,不可能同时做fixed effects, 我觉得不需要加newsid这个新effect, 这个linear mixed model还有一个fixed intercept, 这个fixed intercept我觉得才是best score.
回复

使用道具 举报

推荐
maxentropy 2019-10-22 02:44:28 | 只看该作者
全局:
你可以继续投MLE呀,不会影响的。

不过我好像见过很多google hr都会建议统计、生统、生物信息的PhD尝试ds而不是MLE,我投了MLE也没反应,可真是不给面子啊。。。
回复

使用道具 举报

🔗
newyorkinspring 2019-10-21 23:49:09 | 只看该作者
全局:
这题我一点个人的想法是只要做一组regression score = w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4, 固定每一个news, 做一次based on 每个观众的regression, 得到一个constant w0做为这个news的best score, 如果有1000 news,就有1000个不同的w0这样就是unbiased 的scores. 概念上就有点像finance cpam model所说的alpha and beta, 我们现在要找的就是每个股票的alpha, 或者说是每个news的unbiased score. 请问楼主这跟anova有什么关系呢?
回复

使用道具 举报

🔗
 楼主| darkestkun 2019-10-22 01:18:38 | 只看该作者
全局:
newyorkinspring 发表于 2019-10-21 23:49
这题我一点个人的想法是只要做一组regression score = w0 + w1 * x1 + w2 * x2 + w3 * x3 + w4 * x4, 固定 ...
.
这就是anova呀。X1到X5都是离散变量。这里我写作w1, w5但其实不同category对应不同weight
回复

使用道具 举报

🔗
newyorkinspring 2019-10-22 01:33:35 | 只看该作者
全局:
darkestkun 发表于 2019-10-22 01:18.
这就是anova呀。X1到X5都是离散变量。这里我写作w1, w5但其实不同category对应不同weight

请问这些categorical feature是楼主自己提出来的,还是面试官给的原题提示。这题已经在地里出现很多次了,没人给出如何回答这个问题的思路。所以我想讨论一下。. 1point3acres.com

X1 (category)10 levels
X2 timestamp 3 levels. ----
X3 age 2 levels
X4 income bucket 5 levels

还有楼主提到要加第5个variable news_id,  感觉不大正确,news_id可以从0-1000. 1point3acres

还有你提出的这个score =  w0 + w1 * x1 + w2 * x2 + w3 * x3 _ w4 * x4  + w5 * X5model, sample是什么,是regression on 1000 news吗, 然后每一个观众做一次这样的regression?
回复

使用道具 举报

🔗
peachfly 2019-10-22 05:03:46 | 只看该作者
全局:
嗯 感觉就是在剔除一些已知的underlying dependency (x1-x4), 那就是针对每个news用100个点来做regression, 拟合的model就是被x1-x4解释的部分,用现在的score减去y-hat,是不是就是最客观的那个score了,取个均值?跟w0的关系还没想清楚
回复

使用道具 举报

🔗
newyorkinspring 2019-10-22 07:27:02 | 只看该作者
全局:
peachfly 发表于 2019-10-22 05:03
嗯 感觉就是在剔除一些已知的underlying dependency (x1-x4), 那就是针对每个news用100个点来做regression ...

y - y_hat是error term是个normal distribution. 还有我后来又想过,如果对每个news做100个点的regression,那么只能用x3 and x4, 用不到x1 and x2, 如果在一个regression里又用x1,x2还用x3,x4我实在非常不理解,所以才问了楼主这x1,x4是怎么提出的?
回复

使用道具 举报

🔗
lisha0803 2019-10-22 08:26:43 | 只看该作者
全局:
感觉是可以用linear mixed effect model,X1,X2是关于news的信息,X3,X4是关于reviewer的信息,它们都作为fixed effect来fit。加一个X5是newsid,作为random effect(相当于intercept)fit。最后X1-X4的coef说明了几个变量对score的影响,random effect则是每篇news的best score
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表