一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2359|回复: 17
收起左侧

[DataScience] 一道data science技术面试题 求广泛讨论!

[复制链接] |试试Instant~ |关注本帖
jennymeng2003 发表于 2016-1-29 20:57:35 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
本帖最后由 anonym 于 2016-2-1 00:01 编辑

如果发错地方求告知哈 面试里被问过几次类似的问题了 发上来一起讨论!
题目:给一个dataset 200+ observation with binary outcome  300个predictor(都在0-1之间),已知outcome就是用这300个predictor以某种未知的方法generate出来的 给出另外2W+observation(no outcome, only predictors)要我predict p(y=1|x), performance用AUC(ROC)来测
. 1point3acres.com/bbs
现有思路:. 鍥磋鎴戜滑@1point 3 acres
1. traditional logistic regression肯定不行 考虑lasso或ridge 但问题是如何考虑transformation,interaction?
2. forward/backward/stepwise selection: 同理,如何考虑transformation,interaction?
3. neural network 这个我自学的 觉得比前两个靠谱点 没在R里做过 等做完来和大家汇报下 但听说也是不能automatically take interaction into consideration? 另#of unit和layers如何选
4. SVM 不太熟 容我去复习-google 1point3acres

谢谢观看!另外有一起找工作的小伙伴求指点简历+networking!
撒花!*★,°*:.☆\( ̄▽ ̄)/$:*.°★* 。
lukeutd 发表于 2016-1-31 01:52:00 | 显示全部楼层
之前看到过一篇文章 用embedding algorithm对于这类问题处理的效果更好吧
像boosting bagging   random forest 或者是kaggle上经常用的xgboost?
回复 支持 1 反对 0

使用道具 举报

 楼主| jennymeng2003 发表于 2016-1-29 21:26:32 | 显示全部楼层
啊对 还有neural network有个parameter叫decay 用于防治overfitting 可惜我没学过 有人懂么
回复 支持 反对

使用道具 举报

victorsterling 发表于 2016-1-31 00:07:55 | 显示全部楼层
你这不是binary classification嘛?为啥要用ridge lasso regression 转换·······

直接考虑SVM,KNN, NB,或者 boosting or bagging with  tree 不是更好····

话说这种高维度的用SVM可能比较好吧
回复 支持 反对

使用道具 举报

y_form 发表于 2016-1-31 00:42:32 | 显示全部楼层
本帖最后由 y_form 于 2016-1-31 02:25 编辑

最近正好在处理一个有点像的问题的。我的大概是50 记录 + 40 variables。performance自己定,能解释通就可以。
300 predictors之间有没有 collinearity? binary outcome之间平不平衡?

有collinearity是很头疼的事情,单独lasso和ridge都解决不了,stepwise也不行。我觉得只能有elastic net。但是我自己的data用elastic貌似出现了overfitting。然后是ridge还是lasso的grouped variable。
然后两个outcome不平衡的话,你还需要weight。
interaction的话得自己手动来啊。光说技术的话,R有包可以自动算interaction,不过就是很慢。
然后你可以实现跑一个feature selection算法嘛,降降维。
. visit 1point3acres.com for more.
然后是不需要解释model的话,可以ML算法,或者PCA/MDS先dimension reduction。
neural network/MLP/SVM反正我自己的data跟普通logistic差不多,还特别慢。而且这种ML model比较难interpret啊。
鏉ユ簮涓浜.涓夊垎鍦拌鍧. 然后我也在想能不能boosting or bagging…

还有就是如果是有背景的,可以利用背景知识解释嘛。. 1point 3acres 璁哄潧
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
另外要是有跟近求回复,我也在愁…
回复 支持 反对

使用道具 举报

gyzjay 发表于 2016-1-31 02:06:56 | 显示全部楼层
我觉得降维没有啥用。3w+的数据作为样本还是比较小的……然后我记得天奇大神的xgboost和sklearn都有predictprobablity功能。直接输出了分类概率。我觉得基本的svm 、RFC、加个ensemble就可以了。
回复 支持 反对

使用道具 举报

gyzjay 发表于 2016-1-31 02:09:35 | 显示全部楼层
反正xgboost无脑暴力求解:)nn对于这种问题实际上并没有必要。因为并不知道feature的关系。一管的学习并没有办法好的找到特征空间。 我觉得实际上他给的这个问题贝叶斯方法就能解决……当然我只是一个还在申请的大四狗。可以忽略我的粗浅言论……
回复 支持 反对

使用道具 举报

gyzjay 发表于 2016-1-31 02:18:41 | 显示全部楼层
observation是只空间维度么……之前没有看清楚题目。如果确实是高维数据那么pca还是可以的。但是如果作为样本空间还是普通大小……tree classifier的综合ensemble。nn在300的空间中学习是非常有限的。vote for ensemble model。namely use xgboost:)gradient boosting tree
回复 支持 反对

使用道具 举报

 楼主| jennymeng2003 发表于 2016-2-4 08:56:58 | 显示全部楼层
y_form 发表于 2016-1-31 00:42
最近正好在处理一个有点像的问题的。我的大概是50 记录 + 40 variables。performance自己定,能解释通就可 ...

我喜欢你的头像!
没有collinearity 平衡 不过没有correlation也用不到pca. Waral 鍗氬鏈夋洿澶氭枃绔,
回复 支持 反对

使用道具 举报

y_form 发表于 2016-3-1 08:16:38 | 显示全部楼层
jennymeng2003 发表于 2016-2-4 08:56
我喜欢你的头像!. 1point 3acres 璁哄潧
没有collinearity 平衡 不过没有correlation也用不到pca

过了很久…报个进度…我的elastic net提案被老板否决了…
他的建议是先cluster然后一个个attribute建模QAQ 我的问题是寻找适合的attribute,不完全是求accuracy...
回复 支持 反对

使用道具 举报

wwwseeking 发表于 2016-3-4 16:56:08 | 显示全部楼层
本帖最后由 wwwseeking 于 2016-3-4 16:57 编辑
y_form 发表于 2016-3-1 08:16
过了很久…报个进度…我的elastic net提案被老板否决了…. more info on 1point3acres.com
他的建议是先cluster然后一个个attribute建模Q ...

不就是feature selection? 什么叫做一个个attribute建模? 那还不如用过sparse learning,直接看每个attribute weights,又很好解释。
数据维数dimensionality多少,不是high dimension做feature selection有意思么,至少维数也得有几百几千几万以上把
回复 支持 反对

使用道具 举报

dongdongpan 发表于 2016-3-5 01:52:03 | 显示全部楼层
po主提出的四个算法需要大量training 数据,200+太少了。 两个思路:
1. tree-based models, 一般情况下我发现这种简单粗暴的方法最好用,根据variable importance,再reduce dimensions,总之200+数据少的太可怜了,别想着用这个来train高维度模型
2. unsupervised learning, 还是用tree based models,虽然没有label outcome,仍然可以找出outlier,然后用已知结果的数据来evaluate performance

另外,这是面试的题目,所以不可以太focus on result,而要重点讲自己对于问题的理解。应该做的第一件事是评估data quality 以及variable importance,这就是feature selection。显而易见,碰到这种面试题,一上来就想着套用算法模型,追求accuracy的切入点是有问题的。
回复 支持 反对

使用道具 举报

y_form 发表于 2016-3-9 01:02:16 | 显示全部楼层
wwwseeking 发表于 2016-3-4 16:56
不就是feature selection? 什么叫做一个个attribute建模? 那还不如用过sparse learning,直接看每个att ...

. From 1point 3acres bbs我的问题,并不是传统意义上的feature selection…尽管只有40,但这些features必须要筛选,最好能筛到5个左右。选完之后还得建模看能解释多少variance。我的domain不是data mining,太复杂的模型reviewers理解不了,一定要越简单越好。谢谢你的sparse learning建议。我去看看,虽然老板不会同意用的,但是增长知识是好的。
回复 支持 反对

使用道具 举报

小K 发表于 2016-3-9 01:50:34 | 显示全部楼层
没看懂,binary outcome为什么大家提各种regression办法

目的是prediction准确 vs 解释性,当然会是不同的approach,不过楼主的题目明确说了需要target AUC
predict为主的话,无论多blackbox都可以,比如RF,一般用这个establish 上限。. 鍥磋鎴戜滑@1point 3 acres
下限可以是logistic stepwise的结果,可以先用某些方法做feature的筛选,比如一个个选。. Waral 鍗氬鏈夋洿澶氭枃绔,
collinear对prediction没有影响,对interpretability有影响
可解释性重要的话,就尽量用简单模型去接近刚刚说的上限。. more info on 1point3acres.com

样本少也一样可以cross validate,来防止Overfit
training data才200, 实测数据2w+这么具体不知道有什么用意,但是p >> n是属于high dimensional data,生物信息里面还挺常见的,比如200个病人,10k个基因表达或者蛋白什么的。. Waral 鍗氬鏈夋洿澶氭枃绔,

记得之前用过randomforest效果可以
为了Interpret,还做过用hybrid approach,feature selection via RF, but predict via SVM
我当时的数据里面效果是差不多。. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
. from: 1point3acres.com/bbs
回复 支持 反对

使用道具 举报

rushiwowen92 发表于 2016-3-10 22:46:29 | 显示全部楼层
y_form 发表于 2016-3-1 08:16. 1point3acres.com/bbs
过了很久…报个进度…我的elastic net提案被老板否决了…
他的建议是先cluster然后一个个attribute建模Q ...

这么干是为了add business value吗?
回复 支持 反对

使用道具 举报

 楼主| jennymeng2003 发表于 2016-3-11 09:12:22 | 显示全部楼层
小K 发表于 2016-3-9 01:50
没看懂,binary outcome为什么大家提各种regression办法
.鐣欏璁哄潧-涓浜-涓夊垎鍦
目的是prediction准确 vs 解释性,当然会是不同 ...
. 1point 3acres 璁哄潧
啊 小K姐都出现了!我也不知道200测2W是干啥
总结来看大家都觉得tree会比较适合 所以去自学了一下xgboost. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
但不知为何最后貌似NN cross validation最好 AUC .8左右. visit 1point3acres.com for more.
这是一家consulting company的题 并不生统. From 1point 3acres bbs
交上去后HR回复说还不错 约了下一轮面试
+求问K姐consulting行业里的data scientist到底是个什么情况...感觉要求比较低啊
回复 支持 反对

使用道具 举报

小K 发表于 2016-3-11 10:16:40 | 显示全部楼层
no idea what consulting does...
回复 支持 反对

使用道具 举报

ziz 发表于 2016-3-11 10:20:05 | 显示全部楼层
那2W+ observations上可以用neural network做feature extraction (用autoencoder啥的).没准能提高准确率
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-10 01:51

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表