买房小白任秀坡在湾区买房经历(一)

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推多家公司面试
[Google级团队]:实时大数据分析领域践行者
北京/深圳-大数据/搜索/机器学习职位
日志易机器大数据行业践行者Web/大数据/机器学习等职位-北京or深圳
把贵司招聘信息放这里
查看: 4497|回复: 53
收起左侧

Houzz Data Scientist电面跪经

[复制链接] |试试Instant~ |关注本帖
iamchrisa 发表于 2017-6-30 09:41:16 | 显示全部楼层 |阅读模式

2017(4-6月) 分析|数据科学类 硕士 全职@Houzz - 网上海投 - 技术电面  | Fail | 在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
打电话的是一个中国妹子,上来先问了很多简历上的模型各种问题,然后一直challenge我很多细节,有些不记得了,暂时跳过,开始问问题。1. 抛硬币的条件概率题目
2. bootstrap with replacement n次, 有多大的比例会被选入最终的样本?结果是1 - 1/e
3. 线性回归:对(x0, x1, ..., xn), (y0, y1, ..., yn)进行回归,如果把所有数据点double,(x0, y0)出现了两次,(x1, y1)出现了两次, (xn, yn)也是,最后怎么影响coefficient,这个肯定不变,但是mathematically怎么证明啊?现场没想出来。还问了系数的s.e.怎么变?
4. SQL:两个table,left join,再aggregate,要注意aggregate的对象。
全程感觉面试官态度都不怎么好,基本没有interaction,在我写SQL的时候直接甩我一脸说,do you think i will use what you wrote? exo??? 面试官现在这么拽了啊!
就酱,反正是打酱油的~

. 1point3acres.com/bbs
补充内容 (2017-7-2 19:46):
SQL题目是这样
sessions_ab: session_id, visitor_id, test_flag
test_flag = {"in", "out"}.鏈枃鍘熷垱鑷1point3acres璁哄潧
orders: order_id, session_id, visitor_id, order_value, order_items. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

补充内容 (2017-7-2 19:47):
question: what is the average visitor total spending in on & off. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
那个on & off是test_flag是a/b testing是on还是off

补充内容 (2017-7-2 19:48):
sql答案字数超过了 补在最后面 感觉面试官一直不满意 大家觉得我写的对吗?
y5yeyey 发表于 2017-7-4 13:26:13 | 显示全部楼层


beta.hat = (X^T X)^{-1} X^T Y. Waral 鍗氬鏈夋洿澶氭枃绔,

X.new = [X, X]^T, X.new^T = [X^T, X^T]
Y.new = [Y, Y]^T

beta.hat.new = (X.new^T X.new)^{-1} X.new^T Y.new = ... <algebra> ... = (X^T X)^{-1} X^T Y = beta.hat

Var[ beta.hat ] = (X^T X)^{-1} sigma^2

Var[ beta.hat.new ] = (X.new^T X.new)^{-1} sigma^2 = ... <algebra> ... = 2 (X^T X)^{-1} sigma^2 = 2 Var[ beta.hat ]
-google 1point3acres
All become obvious then you write them out and calculate on a paper.
回复 支持 1 反对 0

使用道具 举报

ynos1155 发表于 2017-7-1 22:36:06 | 显示全部楼层
小K 发表于 2017-7-1 05:48.1point3acres缃
x = rnorm(100). from: 1point3acres.com/bbs
y = rnorm(100)
. 1point 3acres 璁哄潧
我觉得小K的观点是对的,Standard Error应该减小
  1. > x = rnorm(100). 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
  2. > y = rnorm(100)
  3. > x2 =c(x,x). 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
  4. > y2 = c(y,y)
  5. > summary(lm(y~x))$coef
  6.                Estimate Std. Error    t value  Pr(>|t|)
  7. (Intercept)  0.10065730  0.1137187  0.8851431 0.3782461
  8. x           -0.07804947  0.1155171 -0.6756531 0.5008522
  9. > summary(lm(y2~x2))$coef
  10.                Estimate Std. Error    t value  Pr(>|t|)
  11. (Intercept)  0.10065730 0.08000409  1.2581519 0.2098185
  12. x2          -0.07804947 0.08126932 -0.9603805 0.3380351
复制代码
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
补充内容 (2017-7-1 22:39):
但是unbiased estimate 应该是divide by sqrt(n-q), in this case n=100 (which is sample size), q=2 (which is number of coefficient, slope and intercept)
回复 支持 1 反对 0

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 04:00:41 | 显示全部楼层
Mitochondria 发表于 2017-7-1 03:45. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
楼主有没有感觉到妹子碰到妹子面试官反而容易挂23333
.鏈枃鍘熷垱鑷1point3acres璁哄潧
感受到了 那个面试官态度一直不太好 而且感觉很不professional 之前从来没遇到过这种情况 一般就算是回答不对 面试官也不会用那种挑衅的语气 说什么你觉得我会用你的SQL吗
回复 支持 1 反对 0

使用道具 举报

 楼主| iamchrisa 发表于 2017-6-30 10:44:56 | 显示全部楼层
我知道第三题怎么证明了 面试的时候短路了T_T
回复 支持 反对

使用道具 举报

ynos1155 发表于 2017-6-30 23:53:14 | 显示全部楼层
iamchrisa 发表于 2017-6-30 10:44
我知道第三题怎么证明了 面试的时候短路了T_T

lz别放在心上,全当练练手了吧。
回复 支持 反对

使用道具 举报

涉入如有 发表于 2017-7-1 01:38:17 | 显示全部楼层
权当练手。。加油加油
回复 支持 反对

使用道具 举报

shuyangsheng 发表于 2017-7-1 02:09:36 | 显示全部楼层
第三题是不是把cost function写出来然后把那个常数2提出来,所以cost function一样,就可以了?话说Houzz还真是完全不问coding啊。。。
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 03:20:58 | 显示全部楼层
shuyangsheng 发表于 2017-7-1 02:09
第三题是不是把cost function写出来然后把那个常数2提出来,所以cost function一样,就可以了?话说Houzz还 ...

不是的~ 这个不是两倍 因为数字并没有增大 我本来以为是这样的 后来反应过来只是点数增加了 但是不是两倍的关系
回复 支持 反对

使用道具 举报

Mitochondria 发表于 2017-7-1 03:45:04 | 显示全部楼层
楼主有没有感觉到妹子碰到妹子面试官反而容易挂23333
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:31:41 | 显示全部楼层
Var 减半,SE 就sqrt2了呗
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:32:21 | 显示全部楼层
但是问知识性的1-1/e意思就不太大了吧……
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 04:36:45 | 显示全部楼层
小K 发表于 2017-7-1 04:32. 1point 3acres 璁哄潧
但是问知识性的1-1/e意思就不太大了吧……

哇!K姐居然回复了~ s.e.那道题其实是不变,虽然数据量增多 但是是重复的点 不是从样本里面取更多点 标准差不会变 当时我也回答错了
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:59:47 | 显示全部楼层
你确定吗?刚刚看了公式和用R写了两行simulation
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 05:33:39 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 04:59
你确定吗?刚刚看了公式和用R写了两行simulation

我拿excel算了一下 因为算standard deviation的分子虽然增加了 分母也增加了 所以sd并没有变 而且intuitively来说 每个点重复两次并没有提供更多信息 任何参数的估计值和置信区间没有理由变 小k你是不是从一个dist里面取了两倍的点然后做的回归?
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 05:48:14 | 显示全部楼层
x = rnorm(100)
y = rnorm(100)
. Waral 鍗氬鏈夋洿澶氭枃绔,
x2 =c(x,x)
y2 = c(y,y)

summary(lm(y~x))$coef
summary(lm(y2~x2))$coef
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 05:51:33 | 显示全部楼层
for formula, see this:
https://stats.stackexchange.com/questions/64195/how-do-i-calculate-the-variance-of-the-ols-estimator-beta-0-conditional-on
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 06:17:47 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 05:48
x = rnorm(100)
y = rnorm(100)
.鐣欏璁哄潧-涓浜-涓夊垎鍦

我回去试试~ 谢谢k姐
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 06:18:47 | 显示全部楼层
what feedback did the interviewer give for this "se of beta" problem?. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 06:20:13 | 显示全部楼层
this is the R result http://www.r-fiddle.org/#/fiddle?id=CZHS8B0K
回复 支持 反对

使用道具 举报

chuck1212 发表于 2017-7-1 07:16:31 | 显示全部楼层
3. 线性回归:但是mathematically怎么证明啊?可以考虑从projection的角度解释regression, 参考用normal equation求解coefficient
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 09:59:51 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 06:18
what feedback did the interviewer give for this "se of beta" problem?
. more info on 1point3acres.com
no feedback at all. actually not much feedback during the whole interview......连敷衍的okay good cool great都没有
回复 支持 反对

使用道具 举报

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-388663-1-1.html

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-4-20 15:15

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表