回复: 14
收起左侧

狗 DS VO 超详细面经

   
匿名用户-FTGTM  2024-11-2 03:17:24
本楼:   👍  9
100%
0%
0   👎

2024(10-12月) 分析|数据科学类 硕士 全职@Google - 内推 - 视频面试  | 😐 Neutral 😣 HardOther | 在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x

超详细 🐶 DS 面经,求大米!正在努力找工作上岸!


总得来说面试题比较难,但是面试官都比较友善,也比较会引导(除了其中一轮)。感觉 🐶 家的面试很难准备,不像元宇宙有很多面经。感觉还是靠平时的积累。.1point3acres

Technical: Statistics

Question 1: Assume we have a sample with 100 data points. The sample mean is 100, and margin of error is 10. The confidence interval is [70, 90]. The PM complains that the confidence interval is too wide. What can you do?
回答:可以考虑增大 sample size.
Follow up: Let’s say we increase the sample size to 10000. How will the CI change? Can you think of other ways to make the CI narrower without increasing the sample size?
回答:增加 significance level 可以让 CI 变窄.
Question 2:  Assume we have a linear model Y = X * b, where X = (X_1, X_2, …, X_m) and b = (b_0, b_1, …, b_m). Also we have n data points (y_i, x_i). How would you estimate b?.--
回答:We can use OLS assuming we have m < n. Estimated b will be (X^T X)^{-1} X^T Y
Follow up: Let’s assume we actually have more features than data points. That is m > n. What would you do?. ----
回答:A few options to consider. (1) Do we really need all m features? Consider feature selection before building the model using business context. (2) Consider regularization method such as lasso regression. (3) Upsample from existing observation to make n > n.(我后来想了想其实这个不是很合理)(4) Try other methods like random forecasts.
Question 3: If we want to know if some feature is relevant or not, what can we do?
回答:We can look at t-test result on a single beta coefficient.
Follow-up: How do you construct the t-test? What’s the null and alternative hypothesis?
回答:Null hypothesis is H_0: beta_i = 0, and alternative is H_a: beta_i \ne 0.
Follow-up: Why is it a t-distribution?
回答:这题我愣了半天,不知道想考什么。我一开始说 CI looks like +/- 1.96 * (beta_hat / s.e. (beta_hat)), 然后后面那个东西服从 t- 分布。然后面试官问我“为什么?”我就说,因为 beta_hat 是正态分布,然后分母那个东西是 chi-square. 这个也可以推,比如 Var[beta_ols] = […] sigma^2 […]^T,然后你可以证明对角线上的应该是 t 分布?后来他说 OK but what’s the intuition here? 我想了半天说,如果 standard error 已知的话就是 normal,但是我们不知道,所以需要估计,所以就不是 normal 了.. 1point3acres
.1point3acres
Technical: Data analysis and intuition I

这一轮主要的问题是和 YouTube Music 那个手机应用有关系的。打开那个应用之后,上面会有几个建议用户听的 theme,比如 Relax, Workout 或者 Commute. 问题是:假设今天有律师过来说,很担心用户听 Commute list 的时候开车会更快。作为 DS 你会怎么做?
我的回答是可以先考虑做一个 simple t-test 看一下听通勤歌单的人和不听通勤歌单的人之间是不是真的开车速度差很多。然后有时间的话,可以建模。感觉是个非常开放式的问题,没有什么正确答案。但是面试官会问得很细,比如“你用什么 population 建模”,“你的 data granularity 是什么”,“有的人刚开始通勤的时候听的是其他的歌单,开到一半才开始听通勤歌单,你会怎么处理”,“有人通勤的时候其实并不开车,而是坐地铁,你会把他们也包括进 analysis 里吗”,etc.
. Waral dи,
Technical: Data analysis and intuition II

考察的内容和第二轮是一样的,所以没有做太多准备。真的面试了才发现好像题目风格还是不太一样。
第一问:Let’s say you have two features (X1, X2) and one target variable Y, and you want to build an OLS regression model to predict Y. You build a model one Y ~ X1 + X2. Now you also build a model two with transformed feature (X1 - X2) and (X1 + X2). Will you get the same model
您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
使用VIP即刻解锁阅读权限或查看其他获取积分的方式
游客,您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
VIP即刻解锁阅读权限查看其他获取积分的方式
urve. 脑子有点卡壳,一下子没想起来 precision 的定义。Python 函数倒是很好写。
第二个问题是,假设现在给你一个 regression model 的 output,这个模型是预测每个国家的 revenue 有多少。CSV 一共有三列:country, actual revenue, predicted revenue. 先是讨论应该用什么 metric. 我说可以考虑 MSE 或者 weighted MSE,然后面试官就各种 challenge:你为什么看 mean 而不是 sum,哪个比较好,etc. 最后说那就 implement RMSE 好了。然后写到一半说 “Wait, why are you taking the difference?” 然后说我们想要的是 percentage: sqrt(avg(sum_i (predicted_i / actual_i - 1)^2)).
写完了之后问我怎么得出 percentage RMSE(我都没见过这个 metric)的 CI,答“bootstrap”,然后写到一半又说 “Wait a second, why is your bootstrap sample the same sample size as the original sample?” 然后我就说 “Oh, this is quite common and I think it’s the standard procedure of nonparametric bootstrap?” 然后他说“那你是不是有概率得到一个和原来的 sample 一样的 bootstrap sample 呢?”我还以为是考概率题,正准备算,然后面试官说 “Oh actually it’s not very likely. Never mind.”

评分

参与人数 12大米 +22 收起 理由
百米飞人张宝华 + 1 很有用的信息!
statsfrance + 1 很有用的信息!
NebulaVoyager42 + 2 很有用的信息!
清道神君 + 10 欢迎分享你知道的情况,会给更多大米奖励!
609146 + 1 赞一个

查看全部评分


上一篇:亚麻德国 AS intern 面经
下一篇:ThumbTech DS HR 面试考technical题

本帖被以下淘专辑推荐:

地里匿名用户
匿名用户-WDBNW  前天 06:14
本楼:   👍  0
0%
0%
0   👎
请教一下这个问题 (第二问:如果我们现在用 regularized regression,比如 ridge 或者 lasso,那 coefficients of model one and model two 还一样吗?predicted value 呢)
. Waral dи,
我知道地里有很多帖子都有这个题,但是我看完后还是不太确定有regularization后的prediction会有改变吗 我总觉得x1和x2加起来的span不改变那prediction应该也不改变,求讲解
回复

使用道具 举报

地里匿名用户
匿名用户-BBVVK  2024-11-17 23:17:47
本楼:   👍  0
0%
0%
0   👎
同面了这个岗,但是第一轮挂了,跟楼主请教一下我遇到的第一题的进一步的follow up:如果增加样本量可以让s.e.变小,那么可不可以用boostrap的方法呢?boostrap 100次,样本从100变成10000,可以达到同样的效果吗?为什么?

我遇到的面试官每个问题一开始都还行,然后follow up直接把我问穿了。。。
回复

使用道具 举报

地里匿名用户
匿名用户-FTGTM  2024-11-29 12:29:11
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-11-17 10:17
同面了这个岗,但是第一轮挂了,跟楼主请教一下我遇到的第一题的进一步的follow up:如果增加样本量可以让s ...

我没太懂这个问题。一般 bootstrap 的 sample size 和 original sample 的 sample size 是一样的吧?
回复

使用道具 举报

本楼:   👍  0
0%
0%
0   👎
全局:   402
98%
2%
7
感谢楼主分享这么详细的面经
回复

使用道具 举报

地里匿名用户
匿名用户-AKAAL  2024-11-2 04:55:12
本楼:   👍  0
0%
0%
0   👎
请问这是DS product吗?
回复

使用道具 举报

地里匿名用户
匿名用户-WICWR  2024-11-2 05:31:07
本楼:   👍  0
0%
0%
0   👎
感觉是DSR?请问楼主是先team match(被HM捞简历)然后再VO吗?最近也面了DSR,在焦急等结果ing...
回复

使用道具 举报

linbaobei001 2024-11-2 05:41:23 | 显示全部楼层
本楼:   👍  0
0%
0%
0   👎
全局:   35
81%
19%
8
感谢这么详细的面经
回复

使用道具 举报

地里匿名用户
匿名用户-FTGTM  2024-11-2 06:07:26
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-11-1 16:55
请问这是DS product吗?

没,这个是 Data Scientist, Research
回复

使用道具 举报

地里匿名用户
匿名用户-FTGTM  2024-11-2 06:08:00
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-11-1 17:31
感觉是DSR?请问楼主是先team match(被HM捞简历)然后再VO吗?最近也面了DSR,在焦急等结果ing...

好像是这样的!Recruiter 和我说我面的这个 team 是 Ads 相关的。但我希望是可以先面,然后再选组
回复

使用道具 举报

地里匿名用户
匿名用户-WICWR  2024-11-2 06:20:01 来自APP
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-11-01 15:08:00
好像是这样的!Recruiter 和我说我面的这个 team 是 Ads 相关的。但我希望是可以先面,然后再选组
嗯嗯,我面的是一个非常小众的组,叫operation DS。recruiter和我说现在都是面一个具体的组,不像之前统招然后再team match。

看了一眼你的题和我的完全不一样😅感觉比我抽到的要难… LZ是这周刚面完吗?感觉我们时间线很接近
回复

使用道具 举报

地里匿名用户
匿名用户-FTGTM  2024-11-2 06:26:07
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-11-1 18:20
嗯嗯,我面的是一个非常小众的组,叫operation DS。recruiter和我说现在都是面一个具体的组,不像之前统招 ...

我其实还有一轮 behavioral,但是想先分享一下前面的。你知道现在还有保留面试结果/offer一说吗?
回复

使用道具 举报

地里匿名用户
匿名用户-WICWR  2024-11-2 07:06:22 来自APP
本楼:   👍  0
0%
0%
0   👎
匿名用户 发表于 2024-11-01 15:26:07
我其实还有一轮 behavioral,但是想先分享一下前面的。你知道现在还有保留面试结果/offer一说吗?
不确定诶… 之前的人都说可以保留一年,team match上就行。不过recruiter和我说现在都是面具体的team,不再统招了?可能只针对DSR,因为DSP还是看到有人需要team match
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

Advertisement
>
快速回复 返回顶部 返回列表