一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2269|回复: 7
收起左侧

[找工就业] Data Scientist 面试都面了哪些类型的题

[复制链接] |试试Instant~ |关注本帖
chenran818 发表于 2015-1-28 05:57:03 | 显示全部楼层 |阅读模式

2014(10-12月)-[13]CS硕士+fresh grad 无实习/全职 - 网上海投| 分析|数据科学类全职@Trulia

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
在之前的文章 CMU-CS硕士北美码农求职小记:Data Scientist 中,我简略叙述了我求职的经历,这里我也记录一下我面试过哪些类型的题目。面试的职位包括:Data Scientist,Data Engineer,Software Engineer in Machine Learning,Data Analyst等。当然其中有不少也包括最常见得Leetcode Style的算法题,除了这一类题目以外,还有不少其他类型的题目,主要分为这么几类:
1. 问Skill Set 以及对于常见工具的掌握。Skill Set就是指你掌握了哪些知识,一般问起来都是比较粗略地问,主要目的就是考察和团队的习惯以及工具的掌握是否Match。我被问到过各种各要的碎碎的问题,比如计算机网络中HTTP、TCP、UDP协议,数据库的设计原则、实现方法,操作系统的一些基本知识,Unix的常见指令,Hadoop和Hadoop Streaming如何使用、如何Debug,平时使用什么IDE什么OS……总之各个琐碎的角落都被问到过。
2. 问简历,就简历上的技术细节发问,主要是项目有关的技术细节,以及相关的技术延伸。比如我的项目中就提到了NLP相关的东西,就被问了一些和NLP相关工具的使用,比如stanford NLP等。再又问了一些延伸的问题,比如,如何自动生成一个有意义的句子,如何把一段文字Split成一个个句子,怎么选feature怎么做model等等。这类问题主要还是需要对于自己的项目技术细节足够了解,且对于延伸的问题有所掌握。
3. Machine Learning、Statistic的相关问题Machine Learning相关的问题就太多了,我稍微列举一些我遇到过的问题:
* 一些分布参数的最大似然估计之类的东西是什么,如何推导
* LR SVM的本质区别是什么
* 哪些Regularization,都各有什么性质. more info on 1point3acres.com
* 对于Naive Bayes的理解,NB有哪些局限性
* Random Forest 为什么很好用
* 如何做Model Selection
* 给一组数据,问Decision Tree,LR,NB,SVM等算法学出来都是什么样子的,是否学不出来,怎么处理,有哪些Kernel,在图上画线怎么画.鐣欏璁哄潧-涓浜-涓夊垎鍦

还有被问到了一些比较难的问题,比如:
* 对于Graphical Model的理解,写出LDA的公式,给出Topic Model 生成过程等的
* PageRank的原理和公式推导

总之,前面那些问题本质上都不是那么难,但是不少问题都需要对于ML各种知识的融会贯通,所以大家在学习的时候还是需要深入学习,不要浮于表面。
4. 给一个现实问题,如何解决。这一类问题就比较宽泛了,主要是在回答的时候记住考察的目的很多时候并不是技术本身,而是你对于这一类问题没有思考的框架。比如如何收集数据,收集那些数据,如何定feature,如何定measurement,如何定milestone等等。要分层次一步一步地讨论。

举个例子,比如要你做一个房地产的搜索引擎,该怎么做?

最后,感觉很多东西还是得从做项目中来学习。所以还在读书的同学还是得想办法多做一些实际的项目,最好是有真实世界数据的,这样就可以经历一些Clean Data等耗时耗力,老师不教但是在实际工作中又非常有用的过程,帮助自己成长。同时,还是要尽量地把一个项目的时间做的长一些,比如6个月,8个月,才有可能出比较理想的成果。
————————————————
知乎:陈然. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
微博:Sina Visitor System
LinkedIn: Ran Chen | LinkedIn
邮箱:chenr09@gmail.com

评分

3

查看全部评分

本帖被以下淘专辑推荐:

liuzhe1218 发表于 2015-1-28 14:58:35 | 显示全部楼层
顶lz,面machine learning面的心力交瘁,有些时候就是因为有些model没有做过实际的问题,一些case没法比较。。。赞!
回复 支持 反对

使用道具 举报

zhangchi1199068 发表于 2015-1-29 08:54:35 | 显示全部楼层
感觉楼主提到的很多东西都知道,但没有深入研究过,尤其是ml的问题,打算暑期找summer intern 找这方面的,需要补习的东西太多了。。。如果intern 也是这要求估计要跪了。。。
回复 支持 反对

使用道具 举报

hitchpy 发表于 2015-1-29 09:53:55 | 显示全部楼层
赞楼主,太强大了,想问一下现在已经入职了么?感觉是一个非常屌爆的团队啊。平时工作是怎样的呢?因为data scientist感觉要做的东西也不是有很明确的定义,当然各个公司之间也很不同。我最近也在面这个职位。。求经验。
回复 支持 反对

使用道具 举报

hitchpy 发表于 2015-1-29 10:55:29 | 显示全部楼层
赞楼主,太强大了,想问一下现在已经入职了么?感觉是一个非常屌爆的团队啊。平时工作是怎样的呢?因为data scientist感觉要做的东西也不是有很明确的定义,当然各个公司之间也很不同。我最近也在面这个职位。。求经验。
回复 支持 反对

使用道具 举报

supervicky 发表于 2015-2-2 02:18:19 | 显示全部楼层
我也觉得。面过一些职位,但基本没有闻到这么细节的算法内容的。这些东西确实都学过,会用。但要我凭空说出每个细节我是跪了。。。。我以为是对phd有要求,可看lz也是读MS的。可能因为你是cs背景才要求你会自己编算法。我自己是找DATA ANALYST、business analyst类的,感觉公司对我们的要求只是会用,知道用那个package,调用来了就行。。。。也许是我想的太肤浅了。。。
回复 支持 反对

使用道具 举报

nw1337 发表于 2015-3-17 05:04:48 | 显示全部楼层
赞楼主。

我有个问题想问问,上面列举的这些问题问的时候比重都是什么样子的?比如第三类“ Machine Learning、Statistic的相关问题”对非Machine Learning专业的会问到什么程度,要求掌握到什么程度呢?
回复 支持 反对

使用道具 举报

 楼主| chenran818 发表于 2015-3-17 05:22:39 | 显示全部楼层
nw1337 发表于 2015-3-17 05:04
赞楼主。
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
我有个问题想问问,上面列举的这些问题问的时候比重都是什么样子的?比如第三类“ Machine Lea ...

如果掌握这些ML技能是工作要求之一的话,那对于是不是ML背景的人都会问一样难度的问题吧。如果并不擅长的话,找一些analysis的工作?
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-4 10:12

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表