美国买被子or国内带被子?

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货

最近看过此主题的会员

E轮2.5亿美元融资
K12教育独角兽一起作业
北京-诚聘人工智能/教育/大数据岗
码农求职神器Triplebyte:
不用海投
内推多家公司面试
坐标湾区
Games Startup
招聘游戏开发工程师
游戏初创公司招聘工程师、UIUX Designer和游戏策划
查看: 678|回复: 6
收起左侧

google ds 电面

[复制链接] |试试Instant~ |关注本帖
我的人缘0
qinglong1230 发表于 2018-2-24 07:03:21 | 显示全部楼层 |阅读模式
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (2)
 
 
0% (0)  踩

2018(1-3月) 统计类 博士 全职@Google - 内推 - 技术电面  | Fail | fresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
google data scientist 电面:

第一题:一个dataframe有两列数据 一列是account id 一列是某一个月该用户login in的次数 用R 写code计算每个account id的平均每个月login in的次数 aggregate()就可以实现
第二题: m&m豆里面20%是红色,现在我用100个里面15个是红色,请问这正常吗?我一开始用binomial算p value 后来面试官让我用normal approximation 我就用normal approximation又算了一次.留学论坛-一亩-三分地
第三题:紧接着上一问 因为normal approximation用了z test 请问z test和t test 有什么区别 什么时候用z test 什么时候用t test
第四题:请你向一个software engineer解释对于一个广告点击率的数据 为什么我们要用logistic regression而不用linear regression来做回归分析

评分

参与人数 1大米 +3 收起 理由
普鲁斯特家的男人 + 3 很有用的信息!

查看全部评分


上一篇:FB DS 跪经
下一篇:Jefferies Quant 奇葩昂赛
我的人缘0
pigbubu 发表于 2018-2-27 12:24:49 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  88% (60)
 
 
11% (8)  踩
第一题:一个dataframe有两列数据 一列是account id 一列是某一个月该用户login in的次数 用R 写code计算每个account id的平均每个月login in的次数 aggregate()就可以实现
aggregate( num_login ~ month, data=df1, mean)

第三题:紧接着上一问 因为normal approximation用了z test 请问z test和t test 有什么区别 什么时候用z test 什么时候用t test
n need to be  large enough to use the normal approximation
np >= 10 and n(1-p)>=10

第四题:请你向一个software engineer解释对于一个广告点击率的数据 为什么我们要用logistic regression而不用linear regression来做回归分析.1point3acres网
Linear regression assumptions violated
The conditional variance is not constant
Predicted values may be out of range
The identity link is probably not appropriate

回复

使用道具 举报

我的人缘0
zkftyj0806 发表于 2018-2-27 12:27:48 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  91% (67)
 
 
8% (6)  踩
一个小时问了这么多题吗?
回复

使用道具 举报

我的人缘0
 楼主| qinglong1230 发表于 2018-2-27 12:53:15 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (2)
 
 
0% (0)  踩
zkftyj0806 发表于 2018-2-27 12:27
一个小时问了这么多题吗?
.本文原创自1point3acres论坛
其实才45mins 所以最后一题我感觉我还没说完 他就要结束了
回复

使用道具 举报

我的人缘0
 楼主| qinglong1230 发表于 2018-2-27 12:58:36 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  100% (2)
 
 
0% (0)  踩
pigbubu 发表于 2018-2-27 12:24
第一题:一个dataframe有两列数据 一列是account id 一列是某一个月该用户login in的次数 用R 写code计算每 ...

第三题 我总结了一下:
t test is used when the data is normally distributed (sample size can be small and we don't have to know the variance of the underlined distribution)
z test is used when the sample size is large and the variance of underlined distribution is known (no requirement for normality because of central limit theorem)
.1point3acres网
面试的时候没有想到 需不需要知道true variance的差别
回复

使用道具 举报

我的人缘0
pigbubu 发表于 2018-2-27 13:02:17 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  88% (60)
 
 
11% (8)  踩
qinglong1230 发表于 2018-2-27 12:58
第三题 我总结了一下:
t test is used when the data is normally distributed (sample size can be sm ...

看错了,原来是t test和 z test 啊。 . 围观我们@1point 3 acres
一般n >=30可以用normal approximation来近似
回复

使用道具 举报

我的人缘0
zkftyj0806 发表于 2018-2-27 23:39:09 | 显示全部楼层
本楼: 【顶】   0% (0)
 
 
0% (0)   【踩】
全局: 顶  91% (67)
 
 
8% (6)  踩
qinglong1230 发表于 2018-2-27 12:53
其实才45mins 所以最后一题我感觉我还没说完 他就要结束了
. Waral 博客有更多文章,
楼主统计博士都挂了,是不是google DS的bar太高?
回复

使用道具 举报

游客
请先登录

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html





手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-7-21 21:29

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表