一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 4260|回复: 17
收起左侧

Google QA面经~已挂求攒人品

[复制链接] |试试Instant~ |关注本帖
surah 发表于 2015-3-12 08:04:21 | 显示全部楼层 |阅读模式

2015(1-3月) 统计类 硕士 全职@Google - 内推 - 技术电面 |Fail

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
表示已经挂了虽然有些伤心但还是要move on。。。

求攒人品不要让明天继续杯具。。。

2 PHD, 1个是搞了7年多的Senior Statistician,非常tough,具体的可以私信。

1. Talk about your research (15-20min)
2. Talk about Hadoop and How you apply MapReduce to calculate the grand mean of number of queries per user.鏈枃鍘熷垱鑷1point3acres璁哄潧
3.  1000 hard drives. Test for 6 months and 0 is failed. What can you say? And what if your engineer friend told you that "Failure rate is 50%", how should you react?

3是我以前看过的题的变种但是完全不同,我挂在这里了。目前想到的Bayesian的方法可能比较有效。


补充内容 (2015-3-13 02:15):
我简单讲讲第二题,因为有人问我了。

我当时答的磕磕绊绊,我后来想到了两个方法。.鐣欏璁哄潧-涓浜-涓夊垎鍦
1. 普通MapReduce, 把user id当key run一遍MapReduce
2. MapReduce版本的Top K。Mapper算算global mean和total user id
-google 1point3acres

.鏈枃鍘熷垱鑷1point3acres璁哄潧
补充内容 (2015-3-13 02:21):
是local

补充内容 (2015-3-13 04:57): 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
我再强调下,面试前我不知道面试官的背景。是之后通报结果的时候告诉的然后我查出来的。

评分

1

查看全部评分

dennis_szsy 发表于 2015-3-27 10:11:58 | 显示全部楼层
第三题
第一问应该就是用bayesian吧,根据经验设个prior, beta distribution,给定参数,然后根据现有信息update得到posterior,也是个beta distribution,看看posterior mean是多少
第二问是用hypothesis test,设个binomial(1000, p),用delta method做variance stabilize,再给个CI,看0.5在不在里面

不知道对不对-google 1point3acres

补充内容 (2015-3-27 14:46):
当然也能用第一问的posterior构造一个CI看看0.5在不在里面
回复 支持 1 反对 0

使用道具 举报

luoqing 发表于 2015-3-12 10:52:46 | 显示全部楼层
楼主大好人!!感谢感谢!!!
我怎么觉得你的题比别人的都要tough。。。。。。
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-12 11:29:22 | 显示全部楼层
luoqing 发表于 2015-3-12 10:52. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
楼主大好人!!感谢感谢!!!
我怎么觉得你的题比别人的都要tough。。。。。。

是的,所以这就是我为什么很伤心。

后来也想通了,既然当时决定要申就要做好被PHD活虐的准备。祝你好运!
回复 支持 反对

使用道具 举报

luoqing 发表于 2015-3-12 11:34:40 | 显示全部楼层
surah 发表于 2015-3-12 11:29
是的,所以这就是我为什么很伤心。

后来也想通了,既然当时决定要申就要做好被PHD活虐的准备。祝你好 ...

第三题你说的bayesian的意思是,Prob(failure|observation that 0/1000 failed in 6 months)=0 是这个意思吗?
是不是要考虑50% failure rate的sample size是多少,这个hard drive是不是同型号,同使用程度,同6个月的。。。。。
感觉我只能想到些和统计知识无关的东西。。。
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-12 22:36:09 | 显示全部楼层
luoqing 发表于 2015-3-12 11:34
第三题你说的bayesian的意思是,Prob(failure|observation that 0/1000 failed in 6 months)=0 是这个意 ...

1. 不是。 大概思想就是算MAP,设一个prior,然后Likelihood是我们里面描述的distribution。用Bayesian的方法estimate posterior。具体的因为我最近忙死了没时间认真想。Frequenist的方法可能也行但是考虑到那个Interviewer的背景我觉得他想听到Bayesian的回答。
2. 他没有提示。Hard drive我确认过了可以视为完全一样。
回复 支持 反对

使用道具 举报

luoqing 发表于 2015-3-13 03:29:04 | 显示全部楼层
所以是,prior是50%的经验, likelihood是我的observations可能性,也就是0? 所以posterior也是0?
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-13 04:56:00 | 显示全部楼层
luoqing 发表于 2015-3-13 03:29
所以是,prior是50%的经验, likelihood是我的observations可能性,也就是0? 所以posterior也是0?

不是。可能我描述的不够清楚。你就先当50% failure rate这个条件没有存在。

1. 50% failure rate一开始他根本就没给我。Likelihood应该是你原来那个事件的distribution(我估计可能是failure time神马的但是我脑子现在不太清楚我也解释不明白)
2. 50% failure rate是后来给我的问我要怎么办。 我跟我们系PHD讨论的结果一部分认为是用来做Hypothesis testing的(这是null,然后肯定就reject了呗),也有一小部分认为可以当prior。但是我不确定。这个还有待继续讨论。
回复 支持 反对

使用道具 举报

chuendes 发表于 2015-3-17 23:38:24 | 显示全部楼层
In my opinion, the time does matters. 50% failure rate is base which time interval?  
As such, we may consider the problem in another way: Poisson process.  Try to approximate the Lambda given 50% = P(t <= T).
回复 支持 反对

使用道具 举报

wcongying 发表于 2015-3-17 23:52:53 | 显示全部楼层
统计,数学题目。  是因为是博士所以这么问吧。
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-18 03:29:47 | 显示全部楼层
wcongying 发表于 2015-3-17 23:52
统计,数学题目。  是因为是博士所以这么问吧。

I am a master...
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-18 03:30:57 | 显示全部楼层
chuendes 发表于 2015-3-17 23:38
In my opinion, the time does matters. 50% failure rate is base which time interval?  . 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
As such, we m ...

This is the way I argue. It was wrong.. From 1point 3acres bbs
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
If it was the original problem I saw: 4 out of 1000 was broken. We can do it using Poisson and figure out a CI using Bootstrap and whatever. But it doesn't apply for this question.
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-18 03:30:49 | 显示全部楼层
chuendes 发表于 2015-3-17 23:38. from: 1point3acres.com/bbs
In my opinion, the time does matters. 50% failure rate is base which time interval?  
As such, we m ...

This is the way I argue. It was wrong.

If it was the original problem I saw: 4 out of 1000 was broken. We can do it using Poisson and figure out a CI using Bootstrap and whatever. But it doesn't apply for this question.
回复 支持 反对

使用道具 举报

chuendes 发表于 2015-3-18 06:02:55 | 显示全部楼层
surah 发表于 2015-3-18 03:30
This is the way I argue. It was wrong.

If it was the original problem I saw: 4 out of 1000 was  ...

1. Above all, hypothesis test will be your first choice.. Waral 鍗氬鏈夋洿澶氭枃绔,
2. I will reserve Bayes' if time interval is unknown or with a different length.
3. As for evolving events, Markov's chain or Poisson process is not a bad choice at all.   
回复 支持 反对

使用道具 举报

 楼主| surah 发表于 2015-3-18 09:58:10 | 显示全部楼层
chuendes 发表于 2015-3-18 06:02
. Waral 鍗氬鏈夋洿澶氭枃绔,1. Above all, hypothesis test will be your first choice.
2. I will reserve Bayes' if time interva ...

I agree with your saying. But it is in the interviewer's belief that he didn't really think Poisson Process is a good thing. Otherwise he won't keep question me poisson process and my way to calculate CI.

So my questions are: 1.  You think the "Failure rate =50%" is a indicate to do hypothesis testing? 2. How do you consider MC or Poisson to do the evolving events?
回复 支持 反对

使用道具 举报

不靠谱的PhD 发表于 2015-4-13 23:48:25 | 显示全部楼层
QA还要hadoop,让我们纯统计的情何以堪
回复 支持 反对

使用道具 举报

wwtpcsuper 发表于 2015-4-24 05:57:55 | 显示全部楼层
第三题跟6个月有没有关系,会不会比如到了第七个月一半都坏了
回复 支持 反对

使用道具 举报

dawei756 发表于 2016-10-17 01:46:40 | 显示全部楼层
surah 发表于 2015-3-18 03:30
This is the way I argue. It was wrong.

If it was the original problem I saw: 4 out of 1000 was  ...

请问楼主 题目都是哪里看的?
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-10 03:25

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表