注册一亩三分地论坛,查看更多干货!
您需要 登录 才可以下载或查看附件。没有帐号?注册账号
x
超详细 🐶 DS 面经,求大米!正在努力找工作上岸!
总得来说面试题比较难,但是面试官都比较友善,也比较会引导(除了其中一轮)。感觉 🐶 家的面试很难准备,不像元宇宙有很多面经。感觉还是靠平时的积累。.1point3acres
Technical: Statistics
Question 1: Assume we have a sample with 100 data points. The sample mean is 100, and margin of error is 10. The confidence interval is [70, 90]. The PM complains that the confidence interval is too wide. What can you do?
回答:可以考虑增大 sample size.
Follow up: Let’s say we increase the sample size to 10000. How will the CI change? Can you think of other ways to make the CI narrower without increasing the sample size?
回答:增加 significance level 可以让 CI 变窄.
Question 2: Assume we have a linear model Y = X * b, where X = (X_1, X_2, …, X_m) and b = (b_0, b_1, …, b_m). Also we have n data points (y_i, x_i). How would you estimate b?.--
回答:We can use OLS assuming we have m < n. Estimated b will be (X^T X)^{-1} X^T Y
Follow up: Let’s assume we actually have more features than data points. That is m > n. What would you do?. ----
回答:A few options to consider. (1) Do we really need all m features? Consider feature selection before building the model using business context. (2) Consider regularization method such as lasso regression. (3) Upsample from existing observation to make n > n.(我后来想了想其实这个不是很合理)(4) Try other methods like random forecasts.
Question 3: If we want to know if some feature is relevant or not, what can we do?
回答:We can look at t-test result on a single beta coefficient.
Follow-up: How do you construct the t-test? What’s the null and alternative hypothesis?
回答:Null hypothesis is H_0: beta_i = 0, and alternative is H_a: beta_i \ne 0.
Follow-up: Why is it a t-distribution?
回答:这题我愣了半天,不知道想考什么。我一开始说 CI looks like +/- 1.96 * (beta_hat / s.e. (beta_hat)), 然后后面那个东西服从 t- 分布。然后面试官问我“为什么?”我就说,因为 beta_hat 是正态分布,然后分母那个东西是 chi-square. 这个也可以推,比如 Var[beta_ols] = […] sigma^2 […]^T,然后你可以证明对角线上的应该是 t 分布?后来他说 OK but what’s the intuition here? 我想了半天说,如果 standard error 已知的话就是 normal,但是我们不知道,所以需要估计,所以就不是 normal 了.. 1point3acres
.1point3acres
Technical: Data analysis and intuition I
这一轮主要的问题是和 YouTube Music 那个手机应用有关系的。打开那个应用之后,上面会有几个建议用户听的 theme,比如 Relax, Workout 或者 Commute. 问题是:假设今天有律师过来说,很担心用户听 Commute list 的时候开车会更快。作为 DS 你会怎么做?
我的回答是可以先考虑做一个 simple t-test 看一下听通勤歌单的人和不听通勤歌单的人之间是不是真的开车速度差很多。然后有时间的话,可以建模。感觉是个非常开放式的问题,没有什么正确答案。但是面试官会问得很细,比如“你用什么 population 建模”,“你的 data granularity 是什么”,“有的人刚开始通勤的时候听的是其他的歌单,开到一半才开始听通勤歌单,你会怎么处理”,“有人通勤的时候其实并不开车,而是坐地铁,你会把他们也包括进 analysis 里吗”,etc.
. Waral dи,
Technical: Data analysis and intuition II
考察的内容和第二轮是一样的,所以没有做太多准备。真的面试了才发现好像题目风格还是不太一样。
第一问:Let’s say you have two features (X1, X2) and one target variable Y, and you want to build an OLS regression model to predict Y. You build a model one Y ~ X1 + X2. Now you also build a model two with transformed feature (X1 - X2) and (X1 + X2). Will you get the same model您好! 本帖隐藏的内容需要积分高于 188 才可浏览 您当前积分为 0。 使用VIP即刻解锁阅读权限或查看其他获取积分的方式 游客,您好! 本帖隐藏的内容需要积分高于 188 才可浏览 您当前积分为 0。 VIP即刻解锁阅读权限 或 查看其他获取积分的方式 urve. 脑子有点卡壳,一下子没想起来 precision 的定义。Python 函数倒是很好写。
第二个问题是,假设现在给你一个 regression model 的 output,这个模型是预测每个国家的 revenue 有多少。CSV 一共有三列:country, actual revenue, predicted revenue. 先是讨论应该用什么 metric. 我说可以考虑 MSE 或者 weighted MSE,然后面试官就各种 challenge:你为什么看 mean 而不是 sum,哪个比较好,etc. 最后说那就 implement RMSE 好了。然后写到一半说 “Wait, why are you taking the difference?” 然后说我们想要的是 percentage: sqrt(avg(sum_i (predicted_i / actual_i - 1)^2)).
写完了之后问我怎么得出 percentage RMSE(我都没见过这个 metric)的 CI,答“bootstrap”,然后写到一半又说 “Wait a second, why is your bootstrap sample the same sample size as the original sample?” 然后我就说 “Oh, this is quite common and I think it’s the standard procedure of nonparametric bootstrap?” 然后他说“那你是不是有概率得到一个和原来的 sample 一样的 bootstrap sample 呢?”我还以为是考概率题,正准备算,然后面试官说 “Oh actually it’s not very likely. Never mind.” |