《数据科学面试40+真题讲解》,K神本年度最后一次开课


一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推你去多家公司面试
Airbnb 数据科学职位
in analytics and inference
天天打游戏、照样领工资,
你要不要来?
把贵司招聘信息放这里
查看: 6053|回复: 14
收起左侧

google QA

[复制链接] |试试Instant~ |关注本帖
sheen26 发表于 2016-6-17 08:56:36 | 显示全部楼层 |阅读模式

2016(4-6月) 统计类 博士 全职@Google - 内推 - 技术电面 |Failfresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
G家电面,已跪,来发个面经求人品

像网上说的hr和面试官态度啥的都很nice,刚刚开始找工作没啥经验于是整个过程都在发蒙,不出意外的挂掉了。
面试官是做云文档存取的,两个题全是情景问题。
1. 假设一个文件从storage的提取有0.1的可能0.1秒完成,0.4的可能1秒完成,问如果当用户提取文件的时候是随机从三份备份中选择一份,问消耗时间的概率分布是怎样的,而且要用r写出来。
一直以为会是类似投硬币的问题,于是跟面试官吵吵了十分钟才弄清这是个原始概型是怎么样的,大概是我理解能力太差。.鐣欏璁哄潧-涓浜-涓夊垎鍦
. 鍥磋鎴戜滑@1point 3 acres
2.云存储每天要存入大量的文件,我们有很多硬盘,希望存储文件的数量能够尽量均匀。问需要什么statistic能知道我们的算法确实work了--大概就是文件数足够均匀
楼主答了随机抽取一部分硬盘计算新文件数的分布75%quantile,中位数之类的,看如果两者差的不多就是算法work了,感觉这一问姑且是答对了
然后,面试官手画了一个图,大概是这样:
       |
1500|^^^^^^^^^^^^ 95%quant
       |
  900|^^^^^^^^^^^^median
       |. from: 1point3acres.com/bbs
        —————————— t
面试官问有这样一个图是否能知道算法是否work了,我说我还需要看standard error, 否则不能确定,后来想想左面的1500和900差的实在很多,这个图基本可以说明算法出了问题。这两个题目说完时间就到了于是就结束了。

反省一下大概是找工作以来第一个面试太过紧张于是反应迟钝,失去了大好机会,很可惜,也郁闷为啥其他人遇到的都是硬币题偏偏我赶上了需要花挺多时间理解背景的题目。发出来希望对版上其他找统计工作的同学有所帮助。


评分

2

查看全部评分

本帖被以下淘专辑推荐:

zjlvmiao 发表于 2016-9-6 01:22:25 | 显示全部楼层
求问楼主第一题 0.95的概率几秒完成?这个原始模型是什么?不是discrete的table吗?投硬币指的是重复上述过程3次,总的时间是多少。但现在问的是三份里面选了一份。。。
回复 支持 反对

使用道具 举报

 楼主| sheen26 发表于 2016-9-6 02:02:29 | 显示全部楼层
zjlvmiao 发表于 2016-9-6 01:22. 鍥磋鎴戜滑@1point 3 acres
求问楼主第一题 0.95的概率几秒完成?这个原始模型是什么?不是discrete的table吗?投硬币指的是重复上述过 ...

他没有给答案,所以应该是怎么样的我也不清楚,我认为是离散概率没错就是(<=0.1s, p = 0.1; <=1s, p = 0.4),面试官就是这样描述的,所以我才想抱怨给的描述不清楚。。。不过也许人家就是要求只有这点描述你也要能够迅速理解并写出code
回复 支持 反对

使用道具 举报

fatenaught 发表于 2016-11-9 10:11:05 | 显示全部楼层
第二问95%percentile和50%percentile差这么多不正常么。。。
回复 支持 反对

使用道具 举报

瓷心娃娃 发表于 2016-11-18 12:37:12 | 显示全部楼层
均匀的意思是说每个硬盘里的文件差不多多吗?那估计一下均值是不是等与期望不久可以了吗?
回复 支持 反对

使用道具 举报

miles0302 发表于 2017-2-7 14:22:13 | 显示全部楼层
瓷心娃娃 发表于 2016-11-18 12:37
均匀的意思是说每个硬盘里的文件差不多多吗?那估计一下均值是不是等与期望不久可以了吗?
.鐣欏璁哄潧-涓浜-涓夊垎鍦
估计是海量硬盘,不能全部计算。希望快速抽样来代表
回复 支持 反对

使用道具 举报

zhangjy529 发表于 2017-5-25 04:34:46 | 显示全部楼层
有什么统计量可以检验median 和percentile之间差这么多正常吗?只管感觉是不正常,但是怎么测试呢?
回复 支持 反对

使用道具 举报

edyyy 发表于 2017-5-25 05:20:14 | 显示全部楼层
这oa是专门给统计博士准备的吧
回复 支持 反对

使用道具 举报

zhangjy529 发表于 2017-6-4 02:35:39 | 显示全部楼层
       |
1500|^^^^^^^^^^^^ 95%quant. . From 1point 3acres bbs
       |
  900|^^^^^^^^^^^^median
       |
        —————————— t
跟楼主被问道一样的题目。 我也是说看均值与比方95% quantile是否很接近。如果均匀的话,每个盘的数目应该差不多。 所以median 和95% quantile 应该非常接近。 但是面试官让我如何给出检验, 怎么test证明我的结论上面的图是不正常的。 没有一点思路,希望牛人指点。谢谢!
回复 支持 反对

使用道具 举报

Richard163 发表于 2017-6-5 04:02:48 | 显示全部楼层
zhangjy529 发表于 2017-6-4 02:35.鏈枃鍘熷垱鑷1point3acres璁哄潧
|
1500|^^^^^^^^^^^^ 95%quant.
       |

请问这个图是对所有硬盘,还是只是关于你随机取的sample? 是不是可以用bootstrapping方法去test你的statistic?另外只是想到,如果每个硬盘文件数都差不多是不是会在variance里面体现出来,如果文件数都很接近, variance 会比较小.

对于第一题哪位大牛可以指点一下,为什么我觉得CDF没给全?
回复 支持 反对

使用道具 举报

zhangjy529 发表于 2017-6-5 07:47:01 | 显示全部楼层
Richard163 发表于 2017-6-5 04:02
请问这个图是对所有硬盘,还是只是关于你随机取的sample? 是不是可以用bootstrapping方法去test你的statis ...

是所有的硬盘,不是sample。 我也说了方差, 如果均匀的话方差应该很小。但是面试官说怎么测试? 现在一半的人认为median和95%percentile之间差别有问题,一半的人认为没有问题, 那你如何证明你的结论?

还有, 这个图是关于时间的? 这个跟时间有什么关系呢?
回复 支持 反对

使用道具 举报

Richard163 发表于 2017-6-5 11:17:10 | 显示全部楼层
zhangjy529 发表于 2017-6-5 07:47
是所有的硬盘,不是sample。 我也说了方差, 如果均匀的话方差应该很小。但是面试官说怎么测试? 现在一 ...
. from: 1point3acres.com/bbs
bootstrapping可以resampling然后做test. 但是考虑到有很多硬盘,一般bootstrap sample都和原来sample的size是一样的,所以这样可能也不可行. 我觉得可以考虑 chi-squared test.

之前没有注意是时间的意思,如果横轴是时间,那这图就看不懂了. 面试官说了横轴是time? 感觉没理解这题的考的到底是哪个知识点.

之前看到另外一个面经问的一模一样的两到题...
https://instant.1point3acres.com/thread/198240

回复 支持 反对

使用道具 举报

zhangjy529 发表于 2017-6-7 02:00:17 | 显示全部楼层
Richard163 发表于 2017-6-5 11:17.鏈枃鍘熷垱鑷1point3acres璁哄潧
bootstrapping可以resampling然后做test. 但是考虑到有很多硬盘,一般bootstrap sample都和原来sample的si ...

嗯, 感觉是一个人问的。 面试官说了是时间。 我说了chisquare test. 我觉得这可能不是他想要的结果, 所以他才会丢出下面这个median 和95% quantile。 不过我觉得chi-square才是正确的做法。想不到比chi-square更好的了。
回复 支持 反对

使用道具 举报

sitan 发表于 2017-7-25 13:01:48 | 显示全部楼层
zhangjy529 发表于 2017-6-4 02:35
|. visit 1point3acres.com for more.
1500|^^^^^^^^^^^^ 95%quant.
       |

这个其实不就是有n个糖果,分进m个罐子的情形么。单独一个文件分进某个硬盘的概率为1/m,这个其实就是binomial. 如果n比较大,n/m不太大,这是一个泊松分布。假如文件数量很多(n/m很大),泊松分布趋近于正态分布。分布的mean是n/m。在这里median我觉得是一个对mean好估计,median基本就应该是n/m. 然后你要考虑的就是标准差是多少。回到开头binomial分布那里,你其实知道这个标准差是expetation的平方根,即(n/m)^1/2。假如900是median,标准差是30,那么95% quantile 应该60+900 << 1500。可以reject正态分布这个H_0
回复 支持 反对

使用道具 举报

yyzhang818 发表于 2017-8-11 15:34:33 | 显示全部楼层
sitan 发表于 2017-7-25 13:01
这个其实不就是有n个糖果,分进m个罐子的情形么。单独一个文件分进某个硬盘的概率为1/m,这个其实就是bin ...

啥啥啥这都是啥
难道不是multinomial test么。

文件分进某个硬盘是bin(n, 1/m),这和possion有啥关系?
bin的sd也不等于sqrt(mean)啊. more info on 1point3acres.com

补充内容 (2017-8-11 15:37):.鏈枃鍘熷垱鑷1point3acres璁哄潧
啊我错了,没看到n和m都大。你是对的。
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-11-19 20:52

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表