一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 6789|回复: 22
收起左侧

[找工就业] 2016年统计小硕找data scientist工作总结和面经整理

  [复制链接] |试试Instant~ |关注本帖
metootootoo 发表于 2016-4-23 10:30:52 | 显示全部楼层 |阅读模式

2016(4-6月)-[14]Stat/Biostat硕士+3个月-1年 - 网上海投| 分析|数据科学类全职@fresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x

在地里和W大的博客里获得了很多帮助,现在写点自己找工作的经历回馈大家。本文有以下几个内容。

1,我的简单背景
2,此次找工的准备
3,找工结果
4,面经 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
5,总结
==============================
1,我的简单背景
本科复旦数学系,UIUC统计硕士。从小喜欢科学和puzzle的东西,小学初中参加数学竞赛,高中参加数学和物理竞赛,都是自己买书瞎搞,拿了点地区性的小奖。同时我对编程和算法也很感兴趣。我在本科因为个人原因比较消沉,没有认真学习,浪费了数院的教育资源。申请硕士时看到W大博客中关于data scientist的系列文章,对其十分感兴趣,觉得full stack data scientist是数学+编程的结合,很吸引我。所以在硕士期间我很努力在往这方向走。
. 1point 3acres 璁哄潧

硕士期间有过暑期实习和春季实习,都在State Farm保险公司。暑期的内容主要是用python写个工具包,2500行代码,让data scientist在做数据预处理和预测时更加省时省代码。春季主要内容是研究一些NLP方法对分类和聚类模型的影响,很Entry Level的。参加过walmart在2015年底到2016年初在Kaggle办的竞赛,最终排名50/1047。
=======================================
2,此次找工的准备

这是我去年找工的总结和面经. 1point 3acres 璁哄潧
http://www.1point3acres.com/bbs/thread-158842-1-1.html

去年我把统计和机器学习复习的比较细,算法的话当时就微软面试前的感恩节刷了leetcode的100道很简单的题,以为够了,没料到最后都跪在算法题上。。所以今年有一整个月一直在做题。先往后做了150题,再连同之前的,一共250题,刷了第二遍,再把一些没理解好的再思考一遍。题基本cover了全部easy和medium,少量hard。第一遍的时候对bfs,dfs,dp没啥概念,挺多题只好看别人的写法去理解。第二遍对这些概念熟悉多了。现在觉得链表,binary tree等基本结构操作题和明显的bfs, dfs,dp不是很难,而那种看上去毫无思路的题最难(这好像是废话。。)我是用Python做的。然后就是网上找了点概率题和brain teaser做,其他基本就是复习统计知识和机器学习算法的推导。
===========================================
3,找工结果
网投了很多,大约40个公司。职位基本都是data scientist,少量quant。

没消息或者简历跪:太多了。。如浩瀚星辰
电面跪:Jane Street
onsite跪:Quora, Two Sigma
来不及赶上offer的deadline而取消的面试:Apple, Riot games, Expedia, Amazon (面data scientist,转成Software Development Engineer)
offer: Uptake, IBM Thomas J Watson Research Center

Uptake在芝加哥,是个startup,职位data scientist,工作内容是用统计和ml方法帮不同industry的公司建立实时分析平台
IBM TJ Watson在纽约城北边的一个小城,职位他们那儿好像统一叫research staff member,内容看组,基本是NLP,ML,神经网络。有偏分析的(NLP预处理)有偏底层优化的(加速优化神经网络)。Watson涉及到一些大数据分析的应用,比如其中一个是大数据病症诊疗,让Watson去读医学文献和医院医疗记录,给出参考治疗方案,感觉还是挺有意义的。
. from: 1point3acres.com/bbs
最后选择去IBM。因为喜欢学习和研究新东西。当然也因为package相对给的不错。。
=====================================. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
4,面经

有些公司签了nda,所以我只好模糊的说。.鐣欏璁哄潧-涓浜-涓夊垎鍦
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
去年找工的面经
http://www.1point3acres.com/bbs/thread-158842-1-1.html

这里只列今年面的。
------------------------------------
Jane Street:. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
40分钟两题,不好说具体题目,但我之前做过很类似的一道,思路比较类似,比面试题简单一点点,放在这里供大家参考。

有100辆车,标记1到100,车速对应是1到100公里/时,随机把他们放在公路上,如果一辆车速度比前车快,那么他会在碰到前车后减速到和前车一样的速度。等这些车稳定后,车流会形成几个速度不同的Cluster,求Cluster的数量的期望,并心算估计它的值的范围。

我当时太紧张了,两道题都是算答案最后一步犯了点小错,第二天来据信。
-------------------------------------
Two Sigma:
oa我是用python做的,45分钟做完。很明显的bfs和dfs。相当于leetcode的medium吧。
. 鍥磋鎴戜滑@1point 3 acres
onsite
每轮都有自我介绍的时间和面试官介绍自己的时间

上午三轮. from: 1point3acres.com/bbs
第一轮,2道coding,类似leetcode easy难度
第二轮,是一道数据分析的问题,给了个数据集,问了一些涉及到时间序列的问题
第三轮,简单概率题,简单mapreduce和简单sorting

午饭和2个员工吃饭聊天. 1point3acres.com/bbs
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
下午两轮
第一轮,2个时间序列之间的关系问题,次序统计量问题
第二轮,大多时间介绍了我实习写的python包的各种功能。然后问了个时间序列的预测问题。. From 1point 3acres bbs
hr过来说接下来一轮的面试官在开会,可能要等一下。然后聊了会天
然后等了一会hr过来说那个面试官还在开会,所以就说今天就到这里,接下来可能拒可能offer可能继续电面或onsite。

两周后reject
. 鍥磋鎴戜滑@1point 3 acres
我感觉ts我面的职位需要的是各方面能力都不差,并且要有扎实的统计知识,以及面对数据问题灵活运用统计知识的能力,并没有难概率题和brain teaser
---------------------------------------
Quora:
也是NDA.. 鏉ユ簮涓浜.涓夊垎鍦拌鍧.

电面问了abtest,经历

onsite
1,abtest,产品问题,sql
2,coding两道,第一道细心即可,第二道dp可解决,类似leetcode的easy到medium之间
3,上机小项目,动作要快点
4,产品问题
.1point3acres缃
2天后据信

感觉Quora的data scientist很重产品,找insight和metrics比较被看重。
. 鍥磋鎴戜滑@1point 3 acres-------------------------------------
Amazon:
NDA。。

找了本科的学长内推,当时准备投2个的,结果那个比较entry level的不再系统里。。于是就推了现在这个。。这是个社招职位。。要求写着2年ml,data mining经验(没写industry experience),涉及到big data的一些技术和nlp,prefer phd

电面,简单概率题,接着coding,是leetcode的hard题,但其实只要做过就很简单。。另外还有一道类似设计数据结构的题。

onsite,除去hr和午饭,一共5轮,每轮一小时,感觉是覆盖面最广的面试,基本都是ml scientist或者research scientist
涉及到的内容很多,ml问的很细致,其他的包括统计的设计实验,统计量的估计,数据分析的一些问题,初级nlp,recommendation,mapreduce,sql,coding相当于lc的medium到easy。还有一些behavior。

hr打来电话说team觉得我表现不错,但不move forward因为这个职位需要更有经验的人。。
然后说team觉得我engineering还可以,问我愿不愿意面试这个team的SDE职位,愿意的话需要再加2次电面。。不会再有onsite
------------------------------.鐣欏璁哄潧-涓浜-涓夊垎鍦
Uptake:

电面:经历
8小时小项目:时间挺紧的,要理解项目,清理数据,建模,出预测,做ppt给non tech的人看。相当于参加一次小型Kaggle外加一次presentation。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

视频面:
. 鍥磋鎴戜滑@1point 3 acres1,和里面的data scientist讨论项目,介绍我的做法,一行一行介绍代码
2,两个data scientist,主要问了一些ml和anomaly detection


这公司貌似被forbes列为2015年最热startup,因为成立1年就估值1b,ceo说已经开始盈利。-google 1point3acres
里面人感觉也挺利害,有kaggle全球排名前50的,有xgboost(很流行的gradient boosting tree的python包)的代码贡献者之一的
-----------------------------
Apple:

电面就和manager聊了下背景。。
---------------------------
Expedia:

聊背景。。.鏈枃鍘熷垱鑷1point3acres璁哄潧
-------------------------
Riot games:

问你喜欢啥游戏,游戏里有什么问题,你想怎么解决。

作为玩了4年dota和2年dota2以及没玩过lol的玩家。。我感觉不太好说dota2,于是我说csgo里有人开挂,我想用machine learning揪出并惩戒他们!
然后说了很多方面,数据收集,选择,清理,evaluation,怎么投放到系统中,各个步骤会有什么问题。
---------------------------
IBM Waston:
. 鍥磋鎴戜滑@1point 3 acres
这个offer实在来的太奇幻,感谢上帝。。

之前系里通知说ibm watson要来uiuc campus面试,就一天时间,名额有限。我就投了一下。.鐣欏璁哄潧-涓浜-涓夊垎鍦
我某个周三在三番面Quora,半夜做飞机到芝加哥,旁边一哥们全程打呼噜我完全没睡,周四中午回到玉米地,下午连接3个电面,累的不行。然后收到了Uptake的offer,感觉不想再找。这时收到ibm在周五面试的安排,一共4个部门10个组的boss,我被安排了8个组的面试。。我就发邮件和ibm说我有offer一周内要回复,面试也许进行不到最终轮,不想去了。。周五早上很疲惫的爬起来,从不早上看邮箱的我看了眼邮箱,ibm说希望我考虑下因为可能今晚就做决定,而且我是面试场数最多的人。我一看时间,已经错过2轮了,但还是试试把,所以去面了剩下的几轮,面完回家一个小时后接到电话说有3个部门要给我offer。

面试内容由于都是各个组的boss,所以基本没有技术问题,都是谈过去的经历,经历问的比较细。
============================
5,总结

说一些个人感觉吧

感觉现在data scientist的职位定义很模糊,各个公司有不同的职责。有的是找business insight,有的是实现成产品,有的是prototype预测模型。有的是在捣鼓数据,有的只涉及基本的统计,有的是abtest,有的是machine learning,有的基本就是software engineer。。it公司大多是偏向工程类和prototype的职位,往往要求有代码能力,大数据相关技术,要求高的会问ml算法细节。但投入production code往往不会涉及,因为这些可能会交给software engineer来做。同时越大的公司分工越明确,不太找得到full stack的职位。中小公司也许会有做的事比较多的data scientist职位,但是这种职位往往不招fresh grad。。

所以我感觉总的来说目前data scientist机会并不多,尤其对于fresh grad。。因为很多时候这种职位是要有经验积累的。而且竞争者又来自各个不同的专业,待遇也不如software engineer。如果只是看重待遇,我觉得不如花时间准备software engineer的职位,data scientist要准备的东西太杂了。。
.鐣欏璁哄潧-涓浜-涓夊垎鍦
不过如果对数据感兴趣,那么data scientist目前还算是不错的职位,现在计算机发达了,各行业都有大量数据,等着人们去挖掘其中的价值。

. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
祝大家找工顺利,拿到理想的offer!
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
. Waral 鍗氬鏈夋洿澶氭枃绔,
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴




评分

9

查看全部评分

本帖被以下淘专辑推荐:

 楼主| metootootoo 发表于 2016-4-23 23:24:36 | 显示全部楼层
uuisafresh 发表于 2016-4-23 20:29.鐣欏璁哄潧-涓浜-涓夊垎鍦
为什么data scientist待遇不如SE?求楼主科普,DS待遇怎样呀

个人了解到的信息可能有偏差。。你可以看下抖包袱版,我看到同样是fb的ds和se,股票差挺多。。另一方面可能是因为se是实现很多产品的中坚力量吧
回复 支持 1 反对 1

使用道具 举报

sx910604 发表于 2016-4-23 11:07:04 | 显示全部楼层
先顶。。。我猜你是cyy。。。求加好友~~~
回复 支持 反对

使用道具 举报

Leon_27 发表于 2016-4-23 13:20:10 | 显示全部楼层
渣渣本科的去到美帝怎么找学长内推呢…
回复 支持 反对

使用道具 举报

hjh1011 发表于 2016-4-23 15:45:06 | 显示全部楼层
感觉UIUC的stats MS项目还不错啊,有点遗憾当初没去这个
回复 支持 反对

使用道具 举报

hjh1011 发表于 2016-4-23 16:13:55 | 显示全部楼层
Uptake里那个kaggle排名前50的人叫啥呀,想看看ta的profile
回复 支持 反对

使用道具 举报

uuisafresh 发表于 2016-4-23 20:29:30 | 显示全部楼层
为什么data scientist待遇不如SE?求楼主科普,DS待遇怎样呀
回复 支持 反对

使用道具 举报

tommytian 发表于 2016-4-23 20:41:31 | 显示全部楼层
感谢楼主的总结,祝顺利!
回复 支持 反对

使用道具 举报

hylldxm 发表于 2016-4-23 20:43:41 | 显示全部楼层
恭喜楼主找到喜欢的工作,能爆一下芝加哥那家创业公司的包裹吗?
回复 支持 反对

使用道具 举报

zhugejun 发表于 2016-4-23 21:44:14 | 显示全部楼层
hjh1011 发表于 2016-4-23 03:13
Uptake里那个kaggle排名前50的人叫啥呀,想看看ta的profile
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
Yuan Tang. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
. from: 1point3acres.com/bbs
补充内容 (2016-4-23 08:59):
不对,这个是xgboost贡献者之一
回复 支持 反对

使用道具 举报

zhugejun 发表于 2016-4-23 21:45:24 | 显示全部楼层
楼主决定去哪里了吗?
我也收到uptake的面试,下周. 鍥磋鎴戜滑@1point 3 acres
求详细经验
可否加好友
回复 支持 反对

使用道具 举报

Dorit 发表于 2016-4-23 21:52:48 | 显示全部楼层
校友好厉害!.鏈枃鍘熷垱鑷1point3acres璁哄潧
我也想做data scientist
回复 支持 反对

使用道具 举报

duanweikang 发表于 2016-4-27 10:51:51 | 显示全部楼层
跪求楼主uptake 内推
回复 支持 反对

使用道具 举报

艾空 发表于 2016-8-14 11:55:32 | 显示全部楼层
一亩三分地严打"顶""好贴""收藏了"之类的垃圾回复帖!被警告三次,系统会自动封杀ID!

想支持楼主,请点击帖子下方的"好苗""分享""收藏"键,酌情给楼主加大米(系统不扣你自己的分)。
积分不够看不了帖子,请参考论坛导航里的"帮助","新手提纲"里有攒积分指南
回复 支持 反对

使用道具 举报

艾空 发表于 2016-8-14 11:57:17 | 显示全部楼层
楼主厉害呀,辛苦了
回复 支持 反对

使用道具 举报

白衣胜雪 发表于 2016-8-26 02:49:18 | 显示全部楼层
校友你好,我正打算转stat...
回复 支持 反对

使用道具 举报

willi111 发表于 2016-8-28 11:15:55 | 显示全部楼层
楼主辛苦了,谢谢分享经验。
回复 支持 反对

使用道具 举报

wlfjqcj 发表于 2016-9-25 04:12:30 | 显示全部楼层
楼主好厉害!同uiuc,想找ds或da的职位,请问能不能加一下楼主微信
回复 支持 反对

使用道具 举报

hit1023 发表于 2016-9-25 05:37:56 | 显示全部楼层
觉得楼主说的很中肯,看来想找DS现在还是不能放松刷LC啊~
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-7 23:40

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表