一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 1370|回复: 3
收起左侧

Capital One Data Scientist Phone/Onsite面经

[复制链接] |试试Instant~ |关注本帖
Ridingstar01 发表于 2016-4-28 02:03:55 | 显示全部楼层 |阅读模式

2016(4-6月) 分析|数据科学类 硕士 全职@Capital One - 内推 - Onsite |Failfresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
上周五Onsite结束,刚面完的时候自我感觉还行,飞回来想想好像说错或者说得不好的地方还不少,现在心情非常郁结,所以这篇面经将会散发着严肃忧伤的气息。
Capital One Data Scientist职位,这个职位大体上有两个方向,一个是偏统计,一个偏developer。偏统计的基本就是以前的Statistician改了名字,所以面试内容差不多。
目前这个职位的面试流程还在调整中,所以可能环节上与我说的会有不同。我在onsite之前一共有4轮,HR面,Technical Phone,Hackerank Test,Coding Challenge。Onsite当天5轮,两轮case,一轮Role play,一轮behavior,一轮Technical interview。
所以我基本上把目前这个职位面试所有的项目都过了一边,据我所知有的人只有HR和Coding challenge就Onsite了,有的时候Onsite只有一个Case。我在这个面试上花了两个月的时间。唉,说多了都是泪。
HR面很简单,因为我的HR放过我一次鸽子,所以基本没有为难我,就问了该问的信息就安排下一轮了。
Technical Phone Interview是一个关于Credit Card Fraud的case,从Feature Engineering到Model Building都问了,一个case45分钟,所以包括很多细节。这个上午面的晚上就给答复了。
Hackerank Test,Leetcode Easy水平,只记得一个String Manipulate了。不难,跑过Cases即可。
Coding Challenge:一个prediction problem,一个baby name的分析。也不难,我做的好认真啊,花了一个周末的时间,交完了之后正常2-3business days有回复,但我没有收到回复,过好几天发邮件问HR,HR通知我过了。
然后就是Onsite,Case study中有一个是Life Insurance的那个,首先什么样的人会买保险。。。【危险职位的人】,但这样的人我们不想卖给他保险,我们的target应该是什么样的人,我说应该是有familiy的人,同时又不太富裕,所以想给家人留财产。然后接下来就是大概就是死亡率多少时break even,如果你答的很快的话,就会不断深入,比如怎么提高profit啊之类的,我基本说了最直观的方法是提高premium,但是这样可能导致客户数目减少,所以我们要找到balance的点,然后他就问在实际应用中怎么找这个balance点,我说可以发送调查问卷,看有多少客户接受新的premium,然后根据这个比例判断。
第二个是Role play,还是飞机晚点问题,但午饭的时候我问那个人他说可能马上就换了。这个问题我因为见过,所以以为自己应该挺顺利的,但是当我说到有multicollinerity的variable应该从model里移除时,那个面试官一直在追问我为什么,然后我说correlation会导致variance增加,p-value不显著等等,bias estimate【难道不会影响estimate么?】,而且这些variables are telling same story。但是感觉面试官对这个回答并不满意,一直在追问,但是我学过的都是vif>5就移除啊。。。不是这样么?难道我要用PCA?但这个模型显然并不需要用PCA消除correlation这么麻烦啊。。。有什么别的方法么?求教。
第三个又是Case Study,这个比较简单,关于ATM机的,也是break even,然后画了曲线。不过我第一次听错数字了。。。。真是对自己无语。
第四个Behavior问题是tell me a time系列,两个面试官是中国人,在面完前三轮之后看到中国人有一种松了一口气的感觉,他们人也很nice,其实所有面试官都很nice,所以我感觉更难过了。。。呜呜呜。。。
午饭后和director面最后一轮technical,他上来就说这是今天最简单的面试了,他说你可以把笔放下,我们聊聊天就好了,我天真的信了。然后他就说我们聊聊你的project吧,我就把实习的project说了,他问了model,我说我做的是Random Forest部分,他说那你对Random Forest了解多少。。。。然后。。。然后我就装逼了啊!!!我说我以前build model from scratch过,然后他就感兴趣了,他说那你说一下大概的流程,我就又把笔拿起来了啊!!!然后我就说错了,第一步应该是bagging我说成subsampling了。。。director同学很想纠正我这块来着,但是我完全没意识到啊!我就继续说下一步怎么建decision tree了,吧啦吧啦讲大概怎么算information gain,怎么分叉,怎么得出最后的结果,这时候director又尝试拯救我一下,问我这些decision tree会用怎样的不同,但我还是没有意识到。。。然后他决定再给我一次机会,问我还scratch啥model来着,我就说adaboost,这个说对了,然后就轮到我问他问题了。
我觉得如果我挂了,一定是因为我最后装了一个逼。
以上,严肃忧伤的面经。

评分

1

查看全部评分

慎独 发表于 2016-4-28 09:25:00 | 显示全部楼层
我也面了他家的DS, 第一轮就挂了------而且是不到一个小时就收到了拒信。说实话我觉得自己答得不错,或者说是不至于一轮就给挂了。case的内容一样,就是做fraud detection, 我当时申请的是朋友帮忙refer的,office在TX。也是差不多45分钟吧。但是不知道具体的问题都问的是不是一样。我记得我当时是从头开始跟他分析,这是个supervised problem(因为你得知道这个人是否最后有诈骗行为Yes/No),然后就是feature selection啊, 他还都问我了如何做feature selection吧, 我记得我说的用了Lasso,而且还说了这个步骤很重要,而且还要注意bias variance trade off----他还专门指出 我说的这一步其他面试的人都没提到,他觉得这是个good point. 然后又问了些Lasso啊 最后要检验模型好坏啊 验证啊 CV啦之类的。最后的最后开始给我找难题问我了, 他问我:如果target missing了怎么办!?我他么当时就斯巴达了啊。。。你一个好端端的supervised 给我编程unsupervised问题, 那我只能说用Unsupervised办法解决了,我说那就clustering 吧, 认为找到那些归到一个cluster的record然后给标记成Yes/No好了。他还不满意。。。我没办法,真是想不出来了,然后反问他:那就找找看missing的原因。因为我当时想:这个target理论上是不可能有missing的啊!一个人要么诈骗过 要么没有。哪怕他有一万个动机要诈骗,只要还没做出诈骗,那就是No, 只要是诈骗过那就是Yes。凭什么还能给我missing?!除非你家数据库有bug或者有人手贱给你专门删除了才能missing吧。就算是你技术原因的丢失了,这种数据公司也都该有备份吧,总不能你说没了就永远都找不到了吧。。。反正我是大写的懵逼。更懵逼的就是我面完了不到一个小时就收到了HR的拒信。。。我他么thank you letter都还没写完就呵呵了。。。HR跟我说They decided 。。。我也是醉了。。我就一个人面, 怎么就成了“他们”,然后我晚上(十一点)发邮件follow up结果想知道哪里做的不好,HR秒回————她已经外出。。。过了一段时间HR回复我说他们就是这么决定的了。。。没说什么理由。。。by the way, 祝楼主好运。
回复 支持 反对

使用道具 举报

pathfinder1 发表于 2016-11-10 04:05:19 | 显示全部楼层
楼主能不能具体说一说第三题哇?多谢啦~!
回复 支持 反对

使用道具 举报

pathfinder1 发表于 2016-11-10 09:58:41 | 显示全部楼层
我觉得第二个题的他想听到的应该是,存在multicollinerity会影响到我们对model的interpretation。
楼主可以看看. more info on 1point3acres.com
https://onlinecourses.science.psu.edu/stat501/print/book/export/html/346
Effect #1和#2
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-5 21:20

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表