一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 6900|回复: 42
收起左侧

Two Sigma,EA,Quora,Twitter, LinkedIn

[复制链接] |试试Instant~ |关注本帖
lhyqie 发表于 2015-10-28 12:55:27 | 显示全部楼层 |阅读模式

2016(10-12月) 码农类 博士 全职@Two Sigma,EA,Quora,Twitter,LinkedIn - 内推 - 技术电面 Onsite |Failfresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
我是CS非牛校PhD,背景是数据挖掘跟机器学习。
8月底实习结束回来,我就开始了漫长的复习,家中小娃18个月,一边复习一边带娃。每天睡觉不超过7小时,学习最多也就8-10小时。经过这一个半月的努力终于勉强拿到几个offer。
现把失败的面试写出来分享一下面试经验。. 鍥磋鎴戜滑@1point 3 acres
----------------------------------------------------------------------------------------------
A) Two Sigma [onsite failed]
Outside Recruiter 电话各种忽悠说这个公司多么多么好,很多员工都是微软谷歌跳槽来的。说公司现在需要会编程有机器学习跟统计基础的码工,于是我抱着试试的心态提交了申请。先是一轮online coding 就是在hackerank上,题目跟地里面的一样,3个小时的题目,1个半小时轻松写过,拿到他们家的onsite。话说他们的onsite率很高,不过拒信也是很多,他们现在才800多人。所以进去的bar比较高。抱着跟老婆儿子去纽约玩的心态我就去了
Round 1 : 一个白人manager,让我在自己的笔记本上统计word count from a set of documents,documents是自己上网随便copy的几个新闻。follow-up写TF-IDF,也是轻松搞定。
Round 2 : 一个三哥哥,上来让我介绍自己的paper,我讲了一下,明显感觉他心不在焉啊。然后立马开始问我data scientist的问题
               a) 一个车站 if p(at least a bus comes in 1 minute) = 0.3, what is p(at least a bus comes in 3 minutes)?
               b.1) 给你房子的一些属性,如何设计预测房价? Predict House price given (square feets, posting date, neighborhood)
               b.2) 如果给你房子的坐标,又如何预测?Predict House price given (square feets, posting date, latitute and longitute)
               c.1) 给你一个小河,里面很多鱼,sample 其中10000条,如何知道小河里面的鱼的平均长度,以及如何判断这个平均长度是否准确?. 1point3acres.com/bbs
               c.2) 如果小河中有两种鱼,一个长,一个短,sample 其中10000条, 怎么分别预测两种鱼的长度 (kmean k=2)。
               c.3) 如果小河中有两种鱼,一个长,一个短,sample 其中10000条,怎么预测他们数量几乎一样多 follow-up 是 p-value 怎么算   . from: 1point3acres.com/bbs
               d) 一个测绘的组买入三架同一个工厂生产的测量长度的仪器,将这些仪器防止在不在一条直线上的三个点, 分别测量得到长度为a, b, c 问如何预测更好的真实的 a*, b*, c*
Round 3 :  国人妹子 .鐣欏璁哄潧-涓浜-涓夊垎鍦
               1)问了一些machine learning的基础问题,比如linear regression 怎么解(normal equation, stochastic gradient descent),linear regression有什么assumption.
               2) 然后问2个比较复杂的machine learning的设计题,一个类似预测zillow房价,一个是如何做document的labeling.一个document可以有多个label。  我估计跪在这里。
               3) design 一个cost function  使得 false positive 的penalty是 false negative的100倍 (修改logistic regression 的公式,给false positive 乘以一个100的系数)
Lunch break:跟三个中国人吃饭,果然是中国人数学好啊。背景都很牛逼,我问这个面试是quant还是码工,他们异口同声说是quant。我给recruiter耍了,果然吃完饭扯完蛋,一个美女就跟我握手送别了。开开心心的去纽约中央公园去找老婆儿子玩了。
PS:他们家的住宿费很高700刀一晚,但是房子条件一般,每天餐补100刀,我跟我老婆儿子吃的还挺爽的。我经历了这轮面试得到的教训就是,new york不是我生活的地方。
PSS : 面完之后,很礼貌的给三位面试官发去了感谢邮件,并询问面试中我的不足表现以便提高。一个都没理我,国人妹纸也没理我。估计他们都忙着看股票了,公司文化真的很重要,所以twosigma我再也不会去了。
----------------------------------------------------------------------------------------------.1point3acres缃
B)  EA [onsite failed]
面的是他们家的data scientist组,onsite后得知他们总共就5个人。我觉得我整体变现不错,都基本答上来了。可惜还是没给offer,可见bar相当高。面完5轮onsite又加面了一轮coding,想让我去他们的data engineering的组,最后考虑了几天还是拒了我。. more info on 1point3acres.com

一轮 Phone screen 就是问一些machine learning model的基础. Waral 鍗氬鏈夋洿澶氭枃绔,
1) Decision Tree, how it works? for classification and for regression
2) Describe cases/datasets when decision treee does not work.  Is it decision tree linear?
3) Cross validation and Regularization, Can cross validation use together with regularization?
4) a dataset with two features, x1 large range real value, x2 between 0-1,  how to approach? follow up : if # of data is large, how do we do?  add polynomial terms (polynomial kernal)
5) rbf and polynomial kernal, when to use which
6) does kernal method work with other classifiers than SVM. 1point3acres.com/bbs
7) find intersection of two arrays   [1,1,2,2,3,3,3,7]  [1,2,3,3,5]   =>  [1,2,3,3]  two solutions : 1) sort and two pointers  2)hashmap count,  find intersection of key, take min of counts. Waral 鍗氬鏈夋洿澶氭枃绔,


二轮 offline coding 2个小时写一个 mini版的search engine, 用的就是 inverted document index. 用户提交一个query (word1 & word2 & ...),返回含有query中word的文档的交集。. visit 1point3acres.com for more.
要发代码给他们过上million的文本集,我把自己的paper放在项目文件下,通过命令行读入内存,建立索引,然后interactive地让用户query。1个小时就轻松搞定。面试官也表示很满意。

onsite5轮 + 1轮加面
他们家面试确实很exicting,一个题目各种follow up。
Round 1:  老外
               a) 爬楼梯,一次1层或者2层。果断dp解决. 问时空复杂度,答O(n),空间O(n) 可以改进空间O(2)
               b) 如何更快比如 O(log n),给了我一点小提示用矩阵, 想了一会,想到用矩阵power iteration   
                     F(n) = A F(n-1)     where F(1) = [1; 1]  A = [1 1; 0 1]    Fn = [fib(n); fib(n-1)]
                     F(n) =  A^{n-1} * F(1). 1point3acres.com/bbs
               c) 让我更快,我说再快莫非是O(1). 然后我告诉他fibonacci数列有analytical solution可以O(1)求到。follow-up如何利用golden ratio快速求fib(n)
Round 2: 国人,背景很牛,他收下了我的膝盖。 问了一个开放题,如果我只有地毯的一块布的小sample,如何自动产生整个地图,使得 1. pattern 不要重复,否则比较难看 2. 边缘比较平滑
              这个题目的背景很有意思,就是游戏公司在设计游戏的时候如何把游戏地面的背景图案自动生成。Artists只能人工绘制少量的pattern,如何利用这些小pattern产生视觉上和谐的整个地图
              因为是开放题目,所以我扯了好多。先上了个game of life, 然后瞎扯了multi-variate gaussian model. 最后上了KNN做regression.. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
              最后他给出他喜欢的一种解法,用2块布搭起来(overlap 1/2) 然后找到一个optimal的cut(折线,使得线上像素跟周围的像素的颜色值的差异最小)。. more info on 1point3acres.com
              于是根据这个setting写了一个三维矩阵从最左到最右的找cost最小的path。DP轻松搞定
Lunch :    逛EA,拍了很多照片 植物人大战僵尸,titanfall, starwar 等等雕塑,看的我眼花缭乱。他们家饭不免费,lunch的manager请我吃的。
Round 3:  老外
               a) encode and decoding string leetcode 271.
               b) 他给出一种解法 比如 3#1#4#2ILoveEA => I Love EA, 说如果meta data3#1#4#2没了怎么在string的内容中通过一个英文字典找回那些可能的word segmentation leetcode 140
               c) follow up 在所有可能的word segmentation中如何找到最可能的序列. => 利用一个corpus,建立Language model using bi-gram, Maximum Likelihood Estimation
               d) follow up 我bi-gram的做法会bias words个数少的segmention 因为 概率是小于1的,乘的越多就越小。 => 从corpus里面算p(len),放回原来的 MLE, 变成 maximum a posteriori estimation
               e) follow up 如果string可以由多个句子构成怎么办? =》经提示,topic model(LDA) 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
Round 4:  烙印 coding 设计一个文件系统可以支持wildcard搜索 比如 /d/*/folder*abc/file*123 其实就是实现一个trie然后递归解决




----------------------------------------------------------------------------------------------
C)  Quora [phone interview failed]
phone 1:  data scientist position, 面完之后说我更适合去他们machine learning position于是来了 phone 2
               a) Design a model that detect whether the original Quora question is modified to a different one? (TF-IDF, edit distance, LDA)
               b) How to compare performance recommendations model A and model B ( A/B testing)
               c) How long to run A/B testing, when to stop?  (can we just stop p-value < threshold?)
               d) What is meaning of degree freedom?
. From 1point 3acres bbsPhone 2:  machine learning engineer
               a) Which classifiers are non-linear. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
               b) Bagging bias, how to address
               c) how to combine L1 and L2 norm (elastic net regularization)
               d) coding, 在coderpad里面写 decision tree 里面的 find best split (要求feature不仅仅是categorical,也可以是continuous的)  应该跪在这里了,前面扯太多background,20分钟匆促写完,后来发现bug好几个
Quora成了我唯一一个没有拿到onsite的公司,泪奔
. 鍥磋鎴戜滑@1point 3 acres
----------------------------------------------------------------------------------------------
D) Twitter [onsite canceled]. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
phone: wild card matching 类似leetcode 44, 区别是 * 改成了 + , 也就是 zero or more 变成 one or more
           因为不想去Twitter,最终放弃了onsite

E) LinkedIn [onsite failed]
phone    sparse vector dot product, followup sparse matrix product

Onsite    有6轮 外加1轮 lunch 每轮一小时,很多设计题,具体细节问题已经记不住了。Linkedin的machine learning的岗位coding考的少,而且要多复习design
recruiter 先参观office,高大上,给了很多礼物,其中有我的linkedin的contact的graph
Round1 :  machine learning 基础,跟我之前A) B) C) 的machine learning 问的问题不少交集,所以不说了
Round2 :  coding,  有点像leetcode 114, 改了一点点。. from: 1point3acres.com/bbs
Lunch :   他家食堂非常好,应该是我去过的最好的。更新也很频繁。
Round3 :  design 他们家的推荐系统
Round4: design machine learning 系统 (坑爹的是,不是问数学那部分,而是系统的设计,一点没准备,跪了)
Round5: manager culture fit
Round6 :  system design (几乎没准备,跪了)-google 1point3acres

以此贴纪念那悲剧的前5轮onsite


. 1point 3acres 璁哄潧
               


补充内容 (2015-10-28 13:50):
EA round 5: 一堆石头共2种feature大小和重量, 一个未知的scoring function, 是w1*x1 + w2*x2
要求选择score最大的石头,请问如何把肯定不是的石头剔除。 其实就是convex hull的计算,给了一个O(n^4)的解法

评分

6

查看全部评分

本帖被以下淘专辑推荐:

 楼主| lhyqie 发表于 2015-10-30 03:26:38 | 显示全部楼层
ChrisGates23 发表于 2015-10-29 23:23
lz能不能分享一点准备ml面试的心得
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
1. Andrew Ng Coursera上的Machine Learning
2. Andrew Ng Lecture Notes http://cs229.stanford.edu/materials.html
3. 120 Data Science Interview questions  (部分答案 https://datascienceinterview.quora.com/Answers-1)
4. 还有一些自己学校的课的ppt(关于machine learning, advanced machine learning, convex optimization, data mining and text mining)
5. mining massive datasets (重点看一些 map-reduce, recommender system, Locality-Sensitive Hashing (for jaccard, cosine, euclidean distance), bloom filter, 以及大数据下的改进的算法Apriori, K-means, SVD, online
stream algorithm)
6. 还有很多平时的做research时候的笔记。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
.鏈枃鍘熷垱鑷1point3acres璁哄潧
补充内容 (2015-10-30 03:29):
mining massive dataset :  https://www.coursera.org/course/mmds 或者 http://www.mmds.org/
回复 支持 1 反对 0

使用道具 举报

shuyangsheng 发表于 2015-10-28 13:51:29 | 显示全部楼层
大牛就是后来拿了一堆offer的那位吧,恭喜!我就想问问decision tree出现的频率为什么这么高,我不算是纯data science方向,但是decision tree真的是感觉好久都没有用到了,原理蛋疼效果也不好,就算是拿来做boosting里面的weak learner也应该有别的更好的选择吧。是在data mining的某些模型里有什么特殊原因必须要用decision tree么?
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-28 13:58:06 | 显示全部楼层
shuyangsheng 发表于 2015-10-28 13:51
大牛就是后来拿了一堆offer的那位吧,恭喜!我就想问问decision tree出现的频率为什么这么高,我不算是纯da ...
. from: 1point3acres.com/bbs
哪来一堆offer啊,拒信倒是有一堆,还有一些悲剧的小公司的面经,估计大家不care就不分享了。. From 1point 3acres bbs
design tree有几个原因出现频率高。第一,工业界很常用效果不错。第二 model的可理解性高,便于debug。我实习的项目做了广告ranking的project,感觉boosted tree 或者 random forest 效果比SVM等其他classifier好。用quora复习machine learning最好 https://www.quora.com/topic/Decision-Trees
回复 支持 反对

使用道具 举报

leixiang5 发表于 2015-10-28 14:19:21 | 显示全部楼层
哈哈。。楼主面完two sigma跟我做了一样的事情。。我也跟那些给我名片的面试官发了邮件。。完全不理人。。
回复 支持 反对

使用道具 举报

shuyangsheng 发表于 2015-10-28 14:20:55 | 显示全部楼层
lhyqie 发表于 2015-10-28 13:58
哪来一堆offer啊,拒信倒是有一堆,还有一些悲剧的小公司的面经,估计大家不care就不分享了。
design tr ...

真是巧啊我刚回完帖子就点开Quora搜去了。容易debug这点倒是真的之前没想到,我实用经验确实有gap。谢谢啊。
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-28 14:22:08 | 显示全部楼层
leixiang5 发表于 2015-10-28 14:19
哈哈。。楼主面完two sigma跟我做了一样的事情。。我也跟那些给我名片的面试官发了邮件。。完全不理人。。

对啊,面试之前给我们名片是几个意思? 阅后即焚? 别难过,估计就是他们太忙了,没时间处理我们这种垃圾邮件。所以那种文化的公司进去也是累死,关键还不enjoy
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-28 14:27:27 | 显示全部楼层
shuyangsheng 发表于 2015-10-28 14:20
真是巧啊我刚回完帖子就点开Quora搜去了。容易debug这点倒是真的之前没想到,我实用经验确实有gap。谢谢 ...

一样啊,面试过了以后确实对practical machine learning有了很的认识。很多做research的做法在工业界就不适用了。工业界强调实用性,效率,易维护。我LinkedIn的面试就是拿Two sigma, Quora的风格去答了,面试官说我知道coordinate descent怎么解,你不需要给我写推导。。。。
回复 支持 反对

使用道具 举报

leixiang5 发表于 2015-10-28 21:55:23 | 显示全部楼层
lhyqie 发表于 2015-10-28 14:22
对啊,面试之前给我们名片是几个意思? 阅后即焚? 别难过,估计就是他们太忙了,没时间处理我们这种垃圾 ...

给名片貌似只是公司要求的。。
我当时是没觉得他们很忙。。楼主这样一说。。倒是有点道理。。
anyway。楼主应该去下queens或者布鲁克林。。纽约市那消费不是人活的。。
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-28 22:44:23 | 显示全部楼层
leixiang5 发表于 2015-10-28 21:55
给名片貌似只是公司要求的。。
我当时是没觉得他们很忙。。楼主这样一说。。倒是有点道理。。
anyway。 ...

是啊名片就是例行公事,纽约消费太高了,压力太大。祝你拿到其他公司offer
回复 支持 反对

使用道具 举报

aiuou 发表于 2015-10-28 23:01:30 | 显示全部楼层
请问楼主Linkedin onsite有没有一轮叫data coding的?我这周冲击L的machine learning组,目前不知data coding为何物,hr也不知道。而且不知为何我只有4轮
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-28 23:18:52 | 显示全部楼层
aiuou 发表于 2015-10-28 23:01. more info on 1point3acres.com
请问楼主Linkedin onsite有没有一轮叫data coding的?我这周冲击L的machine learning组,目前不知data codi ...
.1point3acres缃
LinkedIn面试是针对组面试的, 我还没有听过data coding呢。面试前一天会公布面试官的名单,看他们的linkedin就知道 他们的方向,针对复习一下
回复 支持 反对

使用道具 举报

thisismj 发表于 2015-10-29 05:16:01 | 显示全部楼层
楼主遇到的面试题目都很有趣,请问这些都是来组哪个领域的?我学数学的,所以对一些高级CS领域不太熟悉。
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-29 06:12:35 | 显示全部楼层
thisismj 发表于 2015-10-29 05:16
楼主遇到的面试题目都很有趣,请问这些都是来组哪个领域的?我学数学的,所以对一些高级CS领域不太熟悉。

头一次听见数学的说高级CS的不熟悉,我觉得CS的都是数学里面搬过来的 哈哈哈
有趣是很有趣,我觉得也挺坑的,我复习的很多东西用不上。。。
回复 支持 反对

使用道具 举报

hj867955629 发表于 2015-10-29 06:19:58 | 显示全部楼层
shuyangsheng 发表于 2015-10-28 13:51. 鍥磋鎴戜滑@1point 3 acres
大牛就是后来拿了一堆offer的那位吧,恭喜!我就想问问decision tree出现的频率为什么这么高,我不算是纯da ...

660TA?字数字数字数
回复 支持 反对

使用道具 举报

ChrisGates23 发表于 2015-10-29 23:23:44 | 显示全部楼层
lz能不能分享一点准备ml面试的心得
回复 支持 反对

使用道具 举报

不要说话 发表于 2015-10-30 03:23:44 | 显示全部楼层
leixiang5 发表于 2015-10-28 14:19.鏈枃鍘熷垱鑷1point3acres璁哄潧
哈哈。。楼主面完two sigma跟我做了一样的事情。。我也跟那些给我名片的面试官发了邮件。。完全不理人。。

楼主有面经吗?
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-30 03:28:09 | 显示全部楼层
不要说话 发表于 2015-10-30 03:23. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
楼主有面经吗?

一楼我不是写了??
回复 支持 反对

使用道具 举报

leixiang5 发表于 2015-10-30 04:12:33 | 显示全部楼层
. 鍥磋鎴戜滑@1point 3 acres
我是实习的。。没有所谓的题库。。不知道是不是实习的关系。。没遇到以前任何TWO SIGMA面经里的题目。
回复 支持 反对

使用道具 举报

 楼主| lhyqie 发表于 2015-10-30 04:14:16 | 显示全部楼层
leixiang5 发表于 2015-10-30 04:12
我是实习的。。没有所谓的题库。。不知道是不是实习的关系。。没遇到以前任何TWO SIGMA面经里的题目。
. from: 1point3acres.com/bbs
我也看过two sigma面经,一个重复的都没有,说明他们更新很快。
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-4 16:50

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表