一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推你去多家公司面试
Airbnb 数据科学职位
in analytics and inference
天天打游戏、照样领工资,
你要不要来?
把贵司招聘信息放这里
查看: 3521|回复: 53
收起左侧

Houzz Data Scientist电面跪经

[复制链接] |试试Instant~ |关注本帖
iamchrisa 发表于 2017-6-30 09:41:16 | 显示全部楼层 |阅读模式

2017(4-6月) 分析|数据科学类 硕士 全职@Houzz - 网上海投 - 技术电面 |Fail在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
打电话的是一个中国妹子,上来先问了很多简历上的模型各种问题,然后一直challenge我很多细节,有些不记得了,暂时跳过,开始问问题。1. 抛硬币的条件概率题目
2. bootstrap with replacement n次, 有多大的比例会被选入最终的样本?结果是1 - 1/e
3. 线性回归:对(x0, x1, ..., xn), (y0, y1, ..., yn)进行回归,如果把所有数据点double,(x0, y0)出现了两次,(x1, y1)出现了两次, (xn, yn)也是,最后怎么影响coefficient,这个肯定不变,但是mathematically怎么证明啊?现场没想出来。还问了系数的s.e.怎么变?
4. SQL:两个table,left join,再aggregate,要注意aggregate的对象。
全程感觉面试官态度都不怎么好,基本没有interaction,在我写SQL的时候直接甩我一脸说,do you think i will use what you wrote? exo??? 面试官现在这么拽了啊!.1point3acres缃
就酱,反正是打酱油的~

. more info on 1point3acres.com
补充内容 (2017-7-2 19:46):
SQL题目是这样
sessions_ab: session_id, visitor_id, test_flag
test_flag = {"in", "out"}
orders: order_id, session_id, visitor_id, order_value, order_items

补充内容 (2017-7-2 19:47):
question: what is the average visitor total spending in on & off
那个on & off是test_flag是a/b testing是on还是off

补充内容 (2017-7-2 19:48):
sql答案字数超过了 补在最后面 感觉面试官一直不满意 大家觉得我写的对吗?
y5yeyey 发表于 2017-7-4 13:26:13 | 显示全部楼层

.鐣欏璁哄潧-涓浜-涓夊垎鍦
beta.hat = (X^T X)^{-1} X^T Y

X.new = [X, X]^T, X.new^T = [X^T, X^T]
Y.new = [Y, Y]^T

beta.hat.new = (X.new^T X.new)^{-1} X.new^T Y.new = ... <algebra> ... = (X^T X)^{-1} X^T Y = beta.hat

Var[ beta.hat ] = (X^T X)^{-1} sigma^2

Var[ beta.hat.new ] = (X.new^T X.new)^{-1} sigma^2 = ... <algebra> ... = 2 (X^T X)^{-1} sigma^2 = 2 Var[ beta.hat ]
. visit 1point3acres.com for more.
All become obvious then you write them out and calculate on a paper.
回复 支持 1 反对 0

使用道具 举报

ynos1155 发表于 2017-7-1 22:36:06 | 显示全部楼层
小K 发表于 2017-7-1 05:48
x = rnorm(100)
y = rnorm(100)
. from: 1point3acres.com/bbs
我觉得小K的观点是对的,Standard Error应该减小
  1. > x = rnorm(100)
  2. > y = rnorm(100). visit 1point3acres.com for more.
  3. > x2 =c(x,x). visit 1point3acres.com for more.
  4. > y2 = c(y,y)
  5. > summary(lm(y~x))$coef
  6.                Estimate Std. Error    t value  Pr(>|t|)
  7. (Intercept)  0.10065730  0.1137187  0.8851431 0.3782461
  8. x           -0.07804947  0.1155171 -0.6756531 0.5008522. From 1point 3acres bbs
  9. > summary(lm(y2~x2))$coef
  10.                Estimate Std. Error    t value  Pr(>|t|)
  11. (Intercept)  0.10065730 0.08000409  1.2581519 0.2098185
  12. x2          -0.07804947 0.08126932 -0.9603805 0.3380351.鐣欏璁哄潧-涓浜-涓夊垎鍦
复制代码

补充内容 (2017-7-1 22:39):
但是unbiased estimate 应该是divide by sqrt(n-q), in this case n=100 (which is sample size), q=2 (which is number of coefficient, slope and intercept)
回复 支持 1 反对 0

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 04:00:41 | 显示全部楼层
Mitochondria 发表于 2017-7-1 03:45
楼主有没有感觉到妹子碰到妹子面试官反而容易挂23333

感受到了 那个面试官态度一直不太好 而且感觉很不professional 之前从来没遇到过这种情况 一般就算是回答不对 面试官也不会用那种挑衅的语气 说什么你觉得我会用你的SQL吗
回复 支持 1 反对 0

使用道具 举报

 楼主| iamchrisa 发表于 2017-6-30 10:44:56 | 显示全部楼层
我知道第三题怎么证明了 面试的时候短路了T_T
回复 支持 反对

使用道具 举报

ynos1155 发表于 2017-6-30 23:53:14 | 显示全部楼层
iamchrisa 发表于 2017-6-30 10:44
我知道第三题怎么证明了 面试的时候短路了T_T

lz别放在心上,全当练练手了吧。
回复 支持 反对

使用道具 举报

涉入如有 发表于 2017-7-1 01:38:17 | 显示全部楼层
权当练手。。加油加油
回复 支持 反对

使用道具 举报

shuyangsheng 发表于 2017-7-1 02:09:36 | 显示全部楼层
第三题是不是把cost function写出来然后把那个常数2提出来,所以cost function一样,就可以了?话说Houzz还真是完全不问coding啊。。。
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 03:20:58 | 显示全部楼层
shuyangsheng 发表于 2017-7-1 02:09
第三题是不是把cost function写出来然后把那个常数2提出来,所以cost function一样,就可以了?话说Houzz还 ...

不是的~ 这个不是两倍 因为数字并没有增大 我本来以为是这样的 后来反应过来只是点数增加了 但是不是两倍的关系
回复 支持 反对

使用道具 举报

Mitochondria 发表于 2017-7-1 03:45:04 | 显示全部楼层
楼主有没有感觉到妹子碰到妹子面试官反而容易挂23333
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:31:41 | 显示全部楼层
Var 减半,SE 就sqrt2了呗
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:32:21 | 显示全部楼层
但是问知识性的1-1/e意思就不太大了吧……
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 04:36:45 | 显示全部楼层
小K 发表于 2017-7-1 04:32
但是问知识性的1-1/e意思就不太大了吧……

哇!K姐居然回复了~ s.e.那道题其实是不变,虽然数据量增多 但是是重复的点 不是从样本里面取更多点 标准差不会变 当时我也回答错了
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 04:59:47 | 显示全部楼层
你确定吗?刚刚看了公式和用R写了两行simulation
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 05:33:39 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 04:59
你确定吗?刚刚看了公式和用R写了两行simulation

我拿excel算了一下 因为算standard deviation的分子虽然增加了 分母也增加了 所以sd并没有变 而且intuitively来说 每个点重复两次并没有提供更多信息 任何参数的估计值和置信区间没有理由变 小k你是不是从一个dist里面取了两倍的点然后做的回归?
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 05:48:14 | 显示全部楼层
x = rnorm(100)
y = rnorm(100)

x2 =c(x,x).鐣欏璁哄潧-涓浜-涓夊垎鍦
y2 = c(y,y)

summary(lm(y~x))$coef
summary(lm(y2~x2))$coef. more info on 1point3acres.com
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 05:51:33 | 显示全部楼层
for formula, see this:
https://stats.stackexchange.com/questions/64195/how-do-i-calculate-the-variance-of-the-ols-estimator-beta-0-conditional-on
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 06:17:47 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 05:48
x = rnorm(100)
y = rnorm(100)


我回去试试~ 谢谢k姐
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 06:18:47 | 显示全部楼层
what feedback did the interviewer give for this "se of beta" problem?
回复 支持 反对

使用道具 举报

小K 发表于 2017-7-1 06:20:13 | 显示全部楼层
this is the R result http://www.r-fiddle.org/#/fiddle?id=CZHS8B0K
回复 支持 反对

使用道具 举报

chuck1212 发表于 2017-7-1 07:16:31 | 显示全部楼层
3. 线性回归:但是mathematically怎么证明啊?可以考虑从projection的角度解释regression, 参考用normal equation求解coefficient
回复 支持 反对

使用道具 举报

 楼主| iamchrisa 发表于 2017-7-1 09:59:51 来自手机 | 显示全部楼层
小K 发表于 2017-7-1 06:18
what feedback did the interviewer give for this "se of beta" problem?

no feedback at all. actually not much feedback during the whole interview......连敷衍的okay good cool great都没有
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-12-12 07:01

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表