男生找男友:我希望你至少是0.628,如果是0.942那就更好了。

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推多家公司面试
[Google级团队]:实时大数据分析领域践行者
北京/深圳-大数据/搜索/机器学习职位
日志易机器大数据行业践行者Web/大数据/机器学习等职位-北京or深圳
把贵司招聘信息放这里
查看: 374|回复: 6
收起左侧

google ds 电面

[复制链接] |试试Instant~ |关注本帖
qinglong1230 发表于 2018-2-24 07:03:21 | 显示全部楼层 |阅读模式

2018(1-3月) 统计类 博士 全职@Google - 内推 - 技术电面  | Fail | fresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
google data scientist 电面:. From 1point 3acres bbs

第一题:一个dataframe有两列数据 一列是account id 一列是某一个月该用户login in的次数 用R 写code计算每个account id的平均每个月login in的次数 aggregate()就可以实现. Waral 鍗氬鏈夋洿澶氭枃绔,
第二题: m&m豆里面20%是红色,现在我用100个里面15个是红色,请问这正常吗?我一开始用binomial算p value 后来面试官让我用normal approximation 我就用normal approximation又算了一次
第三题:紧接着上一问 因为normal approximation用了z test 请问z test和t test 有什么区别 什么时候用z test 什么时候用t test. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
第四题:请你向一个software engineer解释对于一个广告点击率的数据 为什么我们要用logistic regression而不用linear regression来做回归分析
pigbubu 发表于 2018-2-27 12:24:49 | 显示全部楼层
第一题:一个dataframe有两列数据 一列是account id 一列是某一个月该用户login in的次数 用R 写code计算每个account id的平均每个月login in的次数 aggregate()就可以实现. visit 1point3acres.com for more.
aggregate( num_login ~ month, data=df1, mean)
. 1point3acres.com/bbs
第三题:紧接着上一问 因为normal approximation用了z test 请问z test和t test 有什么区别 什么时候用z test 什么时候用t test. From 1point 3acres bbs
n need to be  large enough to use the normal approximation . Waral 鍗氬鏈夋洿澶氭枃绔,
np >= 10 and n(1-p)>=10
. Waral 鍗氬鏈夋洿澶氭枃绔,
第四题:请你向一个software engineer解释对于一个广告点击率的数据 为什么我们要用logistic regression而不用linear regression来做回归分析
Linear regression assumptions violated
The conditional variance is not constant. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
Predicted values may be out of range
The identity link is probably not appropriate
. 鍥磋鎴戜滑@1point 3 acres
回复 支持 反对

使用道具 举报

zkftyj0806 发表于 2018-2-27 12:27:48 | 显示全部楼层
一个小时问了这么多题吗?
回复 支持 反对

使用道具 举报

 楼主| qinglong1230 发表于 2018-2-27 12:53:15 | 显示全部楼层
zkftyj0806 发表于 2018-2-27 12:27
一个小时问了这么多题吗?

其实才45mins 所以最后一题我感觉我还没说完 他就要结束了
回复 支持 反对

使用道具 举报

 楼主| qinglong1230 发表于 2018-2-27 12:58:36 | 显示全部楼层
pigbubu 发表于 2018-2-27 12:24. From 1point 3acres bbs
第一题:一个dataframe有两列数据 一列是account id 一列是某一个月该用户login in的次数 用R 写code计算每 ...

第三题 我总结了一下:
t test is used when the data is normally distributed (sample size can be small and we don't have to know the variance of the underlined distribution)
z test is used when the sample size is large and the variance of underlined distribution is known (no requirement for normality because of central limit theorem)
. Waral 鍗氬鏈夋洿澶氭枃绔,
面试的时候没有想到 需不需要知道true variance的差别
回复 支持 反对

使用道具 举报

pigbubu 发表于 2018-2-27 13:02:17 | 显示全部楼层
qinglong1230 发表于 2018-2-27 12:58
第三题 我总结了一下:
t test is used when the data is normally distributed (sample size can be sm ...

看错了,原来是t test和 z test 啊。
一般n >=30可以用normal approximation来近似
回复 支持 反对

使用道具 举报

zkftyj0806 发表于 2018-2-27 23:39:09 | 显示全部楼层
qinglong1230 发表于 2018-2-27 12:53
其实才45mins 所以最后一题我感觉我还没说完 他就要结束了

楼主统计博士都挂了,是不是google DS的bar太高?
回复 支持 反对

使用道具 举报

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-4-22 18:47

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表