推荐:数据科学课程和书籍清单以及培训讲座


一亩三分地论坛

 找回密码
 获取更多干活,快来注册

一亩三分地官方iOS手机应用下载
查看: 1411|回复: 42
收起左侧

Houzz Data Scientist电面跪经

[复制链接] |试试Instant~ |关注本帖
iamchrisa 发表于 2017-6-30 09:41:16 | 显示全部楼层 |阅读模式

2017(4-6月) 分析|数据科学类 硕士 全职@Houzz - 网上海投 - 技术电面 |Fail在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干活,快来注册

x
打电话的是一个中国妹子,上来先问了很多简历上的模型各种问题,然后一直challenge我很多细节,有些不记得了,暂时跳过,开始问问题。1. 抛硬币的条件概率题目
2. bootstrap with replacement n次, 有多大的比例会被选入最终的样本?结果是1 - 1/e
3. 线性回归:对(x0, x1, ..., xn), (y0, y1, ..., yn)进行回归,如果把所有数据点double,(x0, y0)出现了两次,(x1, y1)出现了两次, (xn, yn)也是,最后怎么影响coefficient,这个肯定不变,但是mathematically怎么证明啊?现场没想出来。还问了系数的s.e.怎么变?
4. SQL:两个table,left join,再aggregate,要注意aggregate的对象。
全程感觉面试官态度都不怎么好,基本没有interaction,在我写SQL的时候直接甩我一脸说,do you think i will use what you wrote? exo??? 面试官现在这么拽了啊!
就酱,反正是打酱油的~


补充内容 (2017-7-2 19:46):
SQL题目是这样
sessions_ab: session_id, visitor_id, test_flag
test_flag = {"in", "out"}
orders: order_id, session_id, visitor_id, order_value, order_items

补充内容 (2017-7-2 19:47):
question: what is the average visitor total spending in on & off
那个on & off是test_flag是a/b testing是on还是off
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
补充内容 (2017-7-2 19:48):. more info on 1point3acres.com
sql答案字数超过了 补在最后面 感觉面试官一直不满意 大家觉得我写的对吗?
ynos1155 发表于 2017-7-1 22:36:06 | 显示全部楼层
关注一亩三分地公众号:
Warald_一亩三分地
小K 发表于 2017-7-1 05:48-google 1point3acres
x = rnorm(100). 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
y = rnorm(100)
. visit 1point3acres.com for more.
我觉得小K的观点是对的,Standard Error应该减小
  1. > x = rnorm(100)
  2. > y = rnorm(100)
  3. > x2 =c(x,x)
  4. > y2 = c(y,y)
  5. > summary(lm(y~x))$coef
  6.                Estimate Std. Error    t value  Pr(>|t|)
  7. (Intercept)  0.10065730  0.1137187  0.8851431 0.3782461
  8. x           -0.07804947  0.1155171 -0.6756531 0.5008522
  9. > summary(lm(y2~x2))$coef
  10.                Estimate Std. Error    t value  Pr(>|t|)
  11. (Intercept)  0.10065730 0.08000409  1.2581519 0.2098185
  12. x2          -0.07804947 0.08126932 -0.9603805 0.3380351
复制代码
. from: 1point3acres.com/bbs
补充内容 (2017-7-1 22:39):
但是unbiased estimate 应该是divide by sqrt(n-q), in this case n=100 (which is sample size), q=2 (which is number of coefficient, slope and intercept)
回复 支持 1 反对 0

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 04:00:41 | 显示全部楼层
关注一亩三分地微博:
Warald
Mitochondria 发表于 2017-7-1 03:45
楼主有没有感觉到妹子碰到妹子面试官反而容易挂23333
. visit 1point3acres.com for more.
感受到了 那个面试官态度一直不太好 而且感觉很不professional 之前从来没遇到过这种情况 一般就算是回答不对 面试官也不会用那种挑衅的语气 说什么你觉得我会用你的SQL吗
回复 支持 1 反对 0

使用道具 举报

 楼主| iamchrisa 发表于 2017-6-30 10:44:56 | 显示全部楼层
我知道第三题怎么证明了 面试的时候短路了T_T
回复 支持 反对

使用道具 举报

ynos1155 发表于 2017-6-30 23:53:14 | 显示全部楼层
iamchrisa 发表于 2017-6-30 10:44. Waral 鍗氬鏈夋洿澶氭枃绔,
我知道第三题怎么证明了 面试的时候短路了T_T

鏉ユ簮涓浜.涓夊垎鍦拌鍧. lz别放在心上,全当练练手了吧。
回复 支持 反对

使用道具 举报

涉入如有 发表于 2017-7-1 01:38:17 | 显示全部楼层
权当练手。。加油加油
回复 支持 反对

使用道具 举报

shuyangsheng 发表于 2017-7-1 02:09:36 | 显示全部楼层
第三题是不是把cost function写出来然后把那个常数2提出来,所以cost function一样,就可以了?话说Houzz还真是完全不问coding啊。。。
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 03:20:58 | 显示全部楼层
shuyangsheng 发表于 2017-7-1 02:09
第三题是不是把cost function写出来然后把那个常数2提出来,所以cost function一样,就可以了?话说Houzz还 ...

不是的~ 这个不是两倍 因为数字并没有增大 我本来以为是这样的 后来反应过来只是点数增加了 但是不是两倍的关系
回复 支持 反对

使用道具 举报

Mitochondria 发表于 2017-7-1 03:45:04 | 显示全部楼层
楼主有没有感觉到妹子碰到妹子面试官反而容易挂23333
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:31:41 | 显示全部楼层
Var 减半,SE 就sqrt2了呗
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:32:21 | 显示全部楼层
但是问知识性的1-1/e意思就不太大了吧……
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 04:36:45 | 显示全部楼层
小K 发表于 2017-7-1 04:32 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
但是问知识性的1-1/e意思就不太大了吧……

哇!K姐居然回复了~ s.e.那道题其实是不变,虽然数据量增多 但是是重复的点 不是从样本里面取更多点 标准差不会变 当时我也回答错了
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:59:47 | 显示全部楼层
你确定吗?刚刚看了公式和用R写了两行simulation. more info on 1point3acres.com
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 05:33:39 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 04:59
你确定吗?刚刚看了公式和用R写了两行simulation

我拿excel算了一下 因为算standard deviation的分子虽然增加了 分母也增加了 所以sd并没有变 而且intuitively来说 每个点重复两次并没有提供更多信息 任何参数的估计值和置信区间没有理由变 小k你是不是从一个dist里面取了两倍的点然后做的回归?
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 05:48:14 | 显示全部楼层
x = rnorm(100).1point3acres缃
y = rnorm(100)

x2 =c(x,x)
y2 = c(y,y)

summary(lm(y~x))$coef
summary(lm(y2~x2))$coef
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 05:51:33 | 显示全部楼层
for formula, see this: .鏈枃鍘熷垱鑷1point3acres璁哄潧
https://stats.stackexchange.com/questions/64195/how-do-i-calculate-the-variance-of-the-ols-estimator-beta-0-conditional-on
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 06:17:47 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 05:48
x = rnorm(100).鏈枃鍘熷垱鑷1point3acres璁哄潧
y = rnorm(100)
.鐣欏璁哄潧-涓浜-涓夊垎鍦

我回去试试~ 谢谢k姐
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 06:18:47 | 显示全部楼层
what feedback did the interviewer give for this "se of beta" problem?
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 06:20:13 | 显示全部楼层
this is the R result http://www.r-fiddle.org/#/fiddle?id=CZHS8B0K
回复 支持 反对

使用道具 举报

chuck1212 发表于 2017-7-1 07:16:31 | 显示全部楼层
3. 线性回归:但是mathematically怎么证明啊?可以考虑从projection的角度解释regression, 参考用normal equation求解coefficient
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 09:59:51 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 06:18. Waral 鍗氬鏈夋洿澶氭枃绔,
what feedback did the interviewer give for this "se of beta" problem?
. more info on 1point3acres.com
no feedback at all. actually not much feedback during the whole interview......连敷衍的okay good cool great都没有
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-7-25 01:06

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表