回复: 32
收起左侧

新鲜出炉google ds engineer 全程面试, 感觉有两轮是新题

   
本楼:   👍  13
100%
0%
0   👎
全局:   81
100%
0%
0

2021(10-12月) 分析|数据科学类 博士 全职@google - 猎头 - 技术电面 Onsite  | Other | 应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
本帖最后由 maloch 于 2020-9-24 12:00 编辑
. .и
本人phd第四年开始,这暑假在facebook ds实习,刚结束google hr就联系我约面试,我本来想春招投一波的看到有机会送上门就不面白不面了。

HR 很热情问你毕业计划,实习经历,职业规划等等。很快约了首轮面试。

技术电面:youtube组的一位大哥,在谷歌呆了8年了。迟到了10分钟但是很友善后面有给我补时间。也很耐心听我博士科研(他直接问博士论文准备写什么)。这里需要注意的是你把自己模型描述得再牛都好,记得准备一下如何回答“怎么验证你的estimation准不准”或者 “可否给出estimation CI”的followup。
题目:
1. 经典coding 生成1-100向量,每个取square root,对奇数位求和。不推荐用for loop,我用的是 x = sqrt(seq(1,100)), y = sum(x[seq(1,99,by=2)]).
2. 看图分析,都是linear regression的概念,首先看y跟三个变量的pairwise scatterplot,问你觉得regression会长什么样。然后给你看summary(lm model)问你看出什么信息和潜在问题 (印证你刚刚的观察;R square太高可能overfitting)。 然后是diagnostic,看回归残差与各个x的scatterplot,问有啥问题。看studentized residuals和qq-plot,问你看出什么。
3. case study. Youtube home feed. 有一个新算法,得到的home feed总体提高了,但有8% channel sample的revenue下降超过10%,问你怎么看。如果又有一个算法把8%里面的4%的revenue提上来了,但引起另外4%sample revenue下降超过10%,问你怎么看。我往multiple testing方面扯了,感觉是对的。

hr很快followup call说面试官很impressed,约onsite,5轮。

1st round: Chrome team
面试官说是open ended question:how do you find out whether the following conclusion is true or not: Using methods that have lower power to analyze experiments leads to a higher fraction of the published papers that are incorrect. (本人此题崩了,完全误解了题意,感觉是被面试官误导带偏了,欢迎大家思考一下,我过两天会后面在评论区奉上答案,我现在知道答案)

2nd round, Youtube team
customer feature X, predict if user would watch a video in the homefeed page. How would you design. (predict the click, logistic; predict the number of click, poisson regression).
Let's do logistic. write down the code (I use R). What is you don't have the glm function, how to you solve the logistic regression. (write down loss function, code it out, gradient descent).. 1point 3acres
If the customer features > 900, sample size only 1000, what will happend (overfit, collinearity). How to solve (PCA, PLS, AIC, BIC, Lasso, etc).
Code Lasso. (glmnet). Write down lasso object function. how to choose the hyperparameter (CV). Code cv.
If you have estimation, how to calculate CI (Bootstrap).
If you have method A, method B, how do you use bootstrap to test whether A is better than B. (each bootstrap round get the difference of accuracy, look at the dist of all the diff acc)

3rd round, health team
case study. Google want to design a screen survey, for those who search headache, fever, etc, direct them to a survey ask more about the symptoms and give advices about thether this person should go to hostpital or not. How do you test the effect of this survey? (1. define treatment/control group, should be event-based (search health-related words). 2. test how ppl react to the survey (go to hospital or not after suggestions). 3. test how accurate is the suggestion (whether users are satisfied with the survey suggestions). ) . 1point 3acres
How do you know whether users went to hospital or not and how they feel about suggestions? (post survey)
What is only part of the sample took the post-survey, say, younger people. How do you generalized this biased sample info to the population (不够时间了到这里,这个也卡住我了,大家可以一起思考哈,感觉也是个常见问题,如何解决sample biasedness)

4st, Ads metric
model 1, regression Y ~ X, sample size n. model 2, every sample in model 1 duplicate, make the sample size 2n and do regression Y' ~ X'. Will coefficient estimation change? why? (no, show math).
Will the CI change? why? (yes, show math).
what's the issue about model 2? (violate independent condition)
how will you estimate coefficient CI with model 2's data? (bootstrap). do you expect the bootstrap CI estimation close to model 1 or model 2 regression? why? (model 1).
Another question, you have budget B to invest in N place for ads campaign like TV, Radio, Emails, Youtube.... How to
您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
使用VIP即刻解锁阅读权限或查看其他获取积分的方式
游客,您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
VIP即刻解锁阅读权限查看其他获取积分的方式
>Udacity abtest summary. 除此之外分享几个个人感觉挺不错的ds 面试快速复习干货: how to choose k in PCA, mixed effect, 快速复习R coding statistic因果分析。还有好多在bookmark就不一 一分享啦,大家一般都google得到。建议大家多想想自己哪些知识有漏洞比如recommendation system,outlier detection甚至survival analysis,搜到看了即便几分钟比完全空想肯定稳很多的。 祝大家offer多多事业有成。
. From 1point 3acres bbs
求大米哈





评分

参与人数 35大米 +47 收起 理由
flying_lion + 1 赞一个
torontotina + 1 给你点个赞!
jennyapple + 1 赞一个
Fake/Random + 1 赞一个
Seannn + 1 给你点个赞!

查看全部评分


上一篇:p有趣家的ds店面一般问什么?
下一篇:狗家fresh grad 2021 DS 面经

本帖被以下淘专辑推荐:

  • · GDS|主题: 118, 订阅: 3
  • · Google DS|主题: 22, 订阅: 0
Vivians1993 2020-10-17 09:17:01 | 显示全部楼层
本楼:   👍  2
100%
0%
0   👎
全局:   21
100%
0%
0
非常感谢楼主面经!真的好厉害!
想问一下楼主电面的时候 case study. Youtube home feed那道题是怎么展开的呀?multiple testing是有多个metrics所以可能false positive或者false negative?(感觉自己想偏了...看到第一反应是看subgroup的effect是不是不一样...但不知道怎么联系到multiple testing.... ----

超级超级感谢!
回复

使用道具 举报

 楼主| maloch 2020-9-25 23:10:13 | 显示全部楼层
本楼:   👍  2
100%
0%
0   👎
全局:   81
100%
0%
0
MissMiao 发表于 2020-9-25 12:06
我觉得这个说法是不对的,因为使用power 低的方法,会产生很多FN的结果,但是publication的时候,一般negat ...
. 1point3acres.com
多谢分享你的想法~ 我也是各种开脑洞思考,感觉你想的比我还丰富哈。但我怎么回答面试官好像都不满意,原来他的意思是想考你概率。。。。看P(published paper incorrect|published paper)展开成power的函数看看是不是关于power 单调递减。

假设alpha是significant level,beta是第二错误率,power就是1-beta,然后还涉及papers里面所有experiment里面null是对的比重假如是p,则数学表达出来是个alpha,power,p的函数,然后你对power求导可以看出结论与p的大小有关。
回复

使用道具 举报

MissMiao 2020-9-25 12:06:10 来自APP | 显示全部楼层
本楼:   👍  2
100%
0%
0   👎
全局:   886
98%
2%
17
我觉得这个说法是不对的,因为使用power 低的方法,会产生很多FN的结果,但是publication的时候,一般negative的结果是不太会被发表的,这就是说,只有那些极度显著的结果才会被lower power的方法检测出来,得以发表,而这些显著结果是FP的可能性会降低,也就是说publication 正确的比率应该提高,但是代价就是会错过很多其他发现。   这个问题我觉得关键在于换方法之后,因为publication bias导致对应的sample会变化,所以lower sensitivity does not necessarily lead to lower PPV,因为prevalence 不再是一个固定常数了。   写了这么多,可千万别被楼主答案打脸……

另外,觉得楼主好牛啊!谷歌是我的dream company 看来我还要努力啊!感觉跟楼主还挺有差距的……

补充内容 (2020-9-25 21:42):
楼主能解释下为什么bs可以正确估计ci的原因吗?结果是对的,但是理由是什么呢?因为bs里还是会有dependence的问题,为什么最后出来的ci可以解决问题?
回复

使用道具 举报

本楼:   👍  0
0%
0%
0   👎
全局:   197
94%
6%
12
mark 膜楼主 紫薯紫薯
回复

使用道具 举报

halfpipe 2020-9-24 23:50:31 来自APP | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   547
98%
2%
9
楼主是什么方向的phd呀
回复

使用道具 举报

 楼主| maloch 2020-9-25 00:27:13 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   81
100%
0%
0
halfpipe 发表于 2020-9-24 23:50
楼主是什么方向的phd呀

stat phd 和 CS master哈
回复

使用道具 举报

halfpipe 2020-9-25 02:12:46 来自APP | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   547
98%
2%
9
maloch 发表于 2020-09-24 09:27:13
stat phd 和 CS master哈
感觉ms new grad想进Google做ds除了return就没别的法子了哈哈哈哈 看到地里的dp都是清一色phd
回复

使用道具 举报

fanyufei4299 2020-9-25 02:37:27 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   8
50%
50%
8
请问下楼主,视频面试的时候,怎么给面试官推公式?拿鼠标在屏幕上写还是在纸上写好在摄像头里给面试官看?
谢谢楼主
回复

使用道具 举报

yoooooogurt 2020-9-25 03:06:59 | 显示全部楼层
本楼:   👍  1
100%
0%
0   👎
全局:   155
100%
0%
0
lz好厉害 谢谢分享!
low power那题:low power会导致high FN,那是否这题跟publication bias有关系?因为结果显著的文章可能更容易投稿、被接收?期待lz的答案。
health survey那题:如果是要看generalized effect的话,是否可以用ipw之类的加个weight(用prob of 填survey作为Y,算个propensity),再inverse来upweight older ppl who participated?
回复

使用道具 举报

离漫的大可乐 2020-9-25 04:41:16 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   37
100%
0%
0
楼主牛逼,能多分享一些快速复习干货吗?
回复

使用道具 举报

 楼主| maloch 2020-9-25 06:26:01 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   81
100%
0%
0
fanyufei4299 发表于 2020-9-25 02:37
请问下楼主,视频面试的时候,怎么给面试官推公式?拿鼠标在屏幕上写还是在纸上写好在摄像头里给面试官看? ...

google 面试官prefer你在googledoc 打字,慢一点但也能使
回复

使用道具 举报

smoothiethu 2020-9-25 06:30:19 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   181
94%
6%
11
yoooooogurt 发表于 2020-9-25 03:06
lz好厉害 谢谢分享!. From 1point 3acres bbs
low power那题:low power会导致high FN,那是否这题跟publication bias有关系?因为 ...

我看了一下publication bias 好像是和multiple testing有关。。不知道怎么和这边联系起来的。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

Advertisement
>
快速回复 返回顶部 返回列表