一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2019|回复: 18
收起左侧

Data scientist @ Spotify

[复制链接] |试试Instant~ |关注本帖
chuendes 发表于 2015-3-6 05:08:25 | 显示全部楼层 |阅读模式

2015(1-3月) 分析|数据科学类 博士 全职@Spotify - 网上海投 - 技术电面 |Other

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
It lasted 65 mins. First, gave an introduction of your projects you have worked on,  then came to the following questions.
Q1. Each user has a log file containing the songs he/she played. How to recommend songs/singers to him/her..1point3acres缃
Q2. Given a control and test, each of them you can get a 95% confidence interval about some variable. When these two intervals have an overlap, how to  check the signifance.
Q3. Given n people, what's the probability that at least 2 people have the same birthday.
Q4. Given an array, find the longest consectuive subsequence in this array.
Q5. Given a sorted array and a target number, find the insertion index.
Q6. Given srteaming numbers, how to randomly choose 100 elements.

评分

7

查看全部评分

xin1q1q12 发表于 2015-3-6 08:24:19 | 显示全部楼层
Q1. Each user has a log file containing the songs he/she played. How to recommend songs/singers to him/her.. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

-google 1point3acres请问是只给 1个用户的 log 吗  还是 很多用户的, 如果是很多用户的 直接用NMF,如果只有1个用户 那就得把这个 用户 按时间段 拆分成多个阶段 用NMF 请问我回答的对吗???
回复 支持 反对

使用道具 举报

 楼主| chuendes 发表于 2015-3-6 08:48:27 | 显示全部楼层
xin1q1q12 发表于 2015-3-6 08:24
Q1. Each user has a log file containing the songs he/she played. How to recommend songs/singers to h ...

You are correct. Use matrix factorization. The number of users is huge.  
回复 支持 反对

使用道具 举报

xin1q1q12 发表于 2015-3-6 14:07:05 | 显示全部楼层
Q6 这道题呢  目的是尽力选的 平均?   应该怎么答  
回复 支持 反对

使用道具 举报

 楼主| chuendes 发表于 2015-3-6 14:14:58 | 显示全部楼层
xin1q1q12 发表于 2015-3-6 14:07
-google 1point3acresQ6 这道题呢  目的是尽力选的 平均?   应该怎么答

You can google the algorithm ''reservoir sample''
回复 支持 反对

使用道具 举报

小K 发表于 2015-3-6 14:26:24 | 显示全部楼层
5 is binary search?

what about 4?
回复 支持 反对

使用道具 举报

ctozlm 发表于 2015-3-6 16:12:15 | 显示全部楼层
请问Q2怎么解的?怎么修正significance?谢谢
回复 支持 反对

使用道具 举报

xin1q1q12 发表于 2015-3-7 00:17:58 | 显示全部楼层
Q6 已经搞定 , 求问 Q2 应该 search what ?? thanks
回复 支持 反对

使用道具 举报

pippin 发表于 2015-3-10 23:54:19 | 显示全部楼层
同问Q2是什么意思?那两个variable是什么关系么?
回复 支持 反对

使用道具 举报

micki_q 发表于 2015-3-12 03:31:31 | 显示全部楼层
多谢lz分析!我也来做题锻炼锻炼。

Q1. Each user has a log file containing the songs he/she played. How to recommend songs/singers to him/her.
这个我脑洞开得比较大,觉得总体有两种途径,一个就是通过听歌习惯找跟这个user相近的user,然后把那些user常听的歌,根据用户similarity来take weighted average rating,再反过来推荐给这个用户?感觉有个难处就是人啊,是个很难估计行为的动物,所以找相似的人永远比找相似的歌要难……但是规律总还是会有的吧。
另一个就是content based根据这个user常听的歌,来找出跟这些歌相似的歌推荐给他?可能assess的feature有很多,比如歌手、国家、genre之类的。这个方法的好处就是你不用看其他用户的data,可以直接根据这个用户本身的习惯来推荐歌给他; 还可以根据歌曲feature,把最新出来的一些相似的曲子推荐给用户;坏处也在于你没有用到其他用户的information……还有个问题就是一个用户可能喜欢不同曲风的, 如果按照这个办法推荐的话,可能就会一直在小圈子里徘徊。

也可以把不同的方法合在一起,比如相似的人+相似的歌。这个可以用latent-factor来解决啊,就是你把一群歌map到一个lower dimension的feature space里,也把user的听歌习惯map到这个feature space里,然后两边就link在一起了。脑洞比较大。。

Q2. Given a control and test, each of them you can get a 95% confidence interval about some variable. When these two intervals have an overlap, how to  check the signifance.. From 1point 3acres bbs
首先我第一个想问的问题就是不知道sample size有多大呢,有时候population和sample的true mean在boundary的话都不能直接比CI的吧,因为那些情况里CI本身就会是biased……此外我觉得confidence interval这个东西也是random variable,那么现在既然根据given的information我们无法确认两组是否significiantly different的话,如果条件允许的话,我会想要做bootstrap,然后得出两组各b个CI,然后test一个的upperbound有否lower than另一个的lower bound,看看有多大可能性bootstrapping的结果比我现在看到的更加extreme。

Q3. Given n people, what's the probability that at least 2 people have the same birthday.
嗯 太简单了……

Q4. Given an array, find the longest consectuive subsequence in this array.
算法学的不精,这题我一开始竟然想要从每个element往后接着扫,就是1st扫到nth,然后记录所有consecutive的length,再从2nd扫到nth,这样就是O(n^2)……我真是好傻好天真,如果第一次扫出来的结果不够大的话第二次为什么还要扫……所以从头扫到尾就行了,记录max length,break了继续扫,这样应该O(n)就可以了吧。

Q5. Given a sorted array and a target number, find the insertion index.
binary search?

. 1point3acres.com/bbs
Q6. Given srteaming numbers, how to randomly choose 100 elements.
reservoir sampling?
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

补充内容 (2015-3-12 04:31):
以及 第一题我废话太多,其实就是content-based,collaborative filtering,或者杂交一下,或者找latent factor
回复 支持 反对

使用道具 举报

小六一 发表于 2015-3-12 04:19:42 来自手机 | 显示全部楼层
诶哟我去……怎么都在讨论算法,前3道简单统计题,后三道直接用R里的function不就好了么……第一题还是好题,cluster一堆方法随便选,分析一下不同dissimilarity measure的优缺点。DS和
回复 支持 反对

使用道具 举报

zercal 发表于 2015-3-12 04:20:18 | 显示全部楼层
Q1:
经典的推荐系统,
item based,
user based,
Model based
然后答一下异同,什么时候适合哪个,
再补充一下有多的信息后(tag,comments)怎么应用进去,感觉就差不多了。
然后为了避免过拟合,一定程度下给用户推荐global上流行的歌来当作随机扰动。
Q2:
一般CI都是认为是Gaussian,或者卡方下的,也有可能是其他,但是必须有概率分布才能有CI。
然后就按照概率分布,写出overlap那部分的对应的type-I error,然后得到P-value就好了。这应该是考的CI和假设检验的对应关系。
Q3:. 1point 3acres 璁哄潧

Q4:
如果我申题没错的话,勉强算是最简单的DP,直接过一遍,
f(i) = 1 if a[i] != a[i-i] + 1,
      = f(i-1) + 1 if (a[i] == a[i-1]+1,
中间记录最大的f(i)

Q5:
. Waral 鍗氬鏈夋洿澶氭枃绔,

Q6:
我不做stream,所以不太会= =
这个是stream数据里随机采样的经典问题,楼主的答案是正解。
回复 支持 反对

使用道具 举报

micki_q 发表于 2015-3-12 04:28:32 | 显示全部楼层
发现我Q2看走眼被CI吸引注意力回答的重心完全偏了……简单地test两组的话还是要先看下data 是什么样的,sample size有多大,discrete还是continuous,有没有selection bias,两组是不是independent的?以及data是不是normal的之类的。如果normal的话就可以直接t test比较下mean就行了。. 1point 3acres 璁哄潧
回复 支持 反对

使用道具 举报

xin1q1q12 发表于 2015-3-12 04:32:49 | 显示全部楼层
我想拖延下  面试时间  请问有啥经验吗
回复 支持 反对

使用道具 举报

micki_q 发表于 2015-3-12 04:50:40 | 显示全部楼层
zercal 发表于 2015-3-12 04:20
Q1:
经典的推荐系统,.鐣欏璁哄潧-涓浜-涓夊垎鍦
item based,

感觉这个Q2答得有点在点子上?这么看来题目想说的其实是,就算两个confidence interval有overlap,还是有可能两个sample significantly different,因为比较confidence interval的overlap来判断是否significant是比较conservative的办法。所以大概还是t-test就可以了吧……
回复 支持 反对

使用道具 举报

yigedala 发表于 2015-3-12 10:43:44 | 显示全部楼层
小六一 发表于 2015-3-12 04:19.鏈枃鍘熷垱鑷1point3acres璁哄潧
诶哟我去……怎么都在讨论算法,前3道简单统计题,后三道直接用R里的function不就好了么……第一题还是好题 ...

好奇用R怎么直接找longest consecutive subsequence
回复 支持 反对

使用道具 举报

dennis_szsy 发表于 2015-3-12 13:25:37 | 显示全部楼层
小K 发表于 2015-3-6 14:26. visit 1point3acres.com for more.
5 is binary search?. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷

what about 4?

Q4是leetcode原题改编吧0.0
回复 支持 反对

使用道具 举报

小K 发表于 2015-3-12 15:01:29 | 显示全部楼层
小六一 发表于 2015-3-11 12:19
诶哟我去……怎么都在讨论算法,前3道简单统计题,后三道直接用R里的function不就好了么……第一题还是好题 ...

用R怎么做4?
回复 支持 反对

使用道具 举报

cxtcxt 发表于 2015-3-14 16:31:41 | 显示全部楼层

题目中有说是consecutive sequence, 感觉可以钻个空子。把原来的array转换成前后两个数的差,然后用rle()找出最长seq of 1
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-5 20:38

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表