回复: 37
跳转到指定楼层
上一主题 下一主题
收起左侧

Credit card churn model 不能用Lasso 或者linear model?

 
全局:

2019(4-6月) 分析|数据科学类 硕士 全职@capitalone - 网上海投 - 技术电面  | | Fail | 在职跳槽

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
最近面了Capital One的 data scientist职位, 经典的 credit card churn model, dataset是所有account的ch
您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
使用VIP即刻解锁阅读权限或查看其他获取积分的方式
游客,您好!
本帖隐藏的内容需要积分高于 188 才可浏览
您当前积分为 0。
VIP即刻解锁阅读权限查看其他获取积分的方式
Unlock interview details and practice with AI
Curated Interview Questions from Top Companies
决这个问题。

我知道random forest 肯定可以,但为什么linear model 不行?. 1point3acres.com

评分

参与人数 3大米 +19 收起 理由
huixingzhijia + 2 赞一个!
匿名用户-IXKIG + 15
光影流转 + 2 很有用的信息!

查看全部评分


上一篇:AMZN BIE昂赛过经
下一篇:谷歌跪的一塌糊涂经
全局:
楼主先看看lasso和rigid的定义。考虑L1和L2进model是为了regularization。less improtant的feature系数是否为0的问题。

回归问题本质。churn model理想的output是一个probability, which can indicate the probably of churning in the next X days. 一般这种propensity model需要有个user defined的time window。

因此这里只能用classification来建模。如果提及linear 那肯定是错的。因为linear model的output range是负无穷到正无穷,无法用来解释churn这个问题。
. check 1point3acres for more.
我想楼主提到lasso可能是被问及feature selection,lasso跟feature selection没啥关系。你可以用forward或者backwards 的方法select,或者高端点的MCMC,忘记具体名字了,我们一般不用这个technique。

一般遇到classification,直接把xgboost扔出去。当然你要懂xgboost为何牛逼。

评分

参与人数 4大米 +7 收起 理由
5668157 + 3 赞一个!
darkfinally + 1 赞一个
serein + 1 赞一个!
光影流转 + 2 很有用的信息!

查看全部评分

回复

使用道具 举报

全局:
我觉得楼主这里可能跟面试官沟通出了问题。如果面试官直接问用的model,楼主说lasso regression的话面试官就会觉得你用一个regression的model做clasification的问题,如果楼主答logistic regression with L1 regularization可能就没问题了。如果面试官想问的是model下feature太多,要做feature selection的话,楼主可能要答的是backward,forward,用regularization,dimension reduction啥的。如果面试官问的是要用哪些feature的话,可能这时候你就需要brainstorm一些feature了,比如credit balance,credit limit啥的。建议不确定的时候可以跟面试官confirm一下会好很多。

评分

参与人数 6大米 +6 收起 理由
BarryYun + 1 赞一个
AlexaLee + 1 赞一个
wasabimao1181 + 1 赞一个
serein + 1 赞一个!
光影流转 + 1 很有用的信息!

查看全部评分

回复

使用道具 举报

推荐
jliu 2019-5-29 23:17:58 | 只看该作者
全局:
感觉面试的时候,思路清晰也是挺重要的。回答问题应该是有一个思维框架。先挑重点的说,如果对方没有问到怎么解决feature selection的问题,为什么要把LASSO牵扯进来呢。 这个应该是先是说这类问题应该用classification model去解决,然后再根据对方的follow up进行调整,不能一上来就放上最终的方案。
回复

使用道具 举报

🔗
owenwj 2019-5-28 13:18:31 来自APP | 只看该作者
全局:
我猜测:lr是线性关系  对continuous variable比较适用 如果是0/1这种category varaible的话 tree based model确实好些
回复

使用道具 举报

全局:
linear model是解决regression问题的。对于classification问题,可用的相似的是logistic regression, logistic regression也可以说是generalised linear model,但是是因为这一类model思想上有一定的相似性。这应该是刚接触data science就应该知道的吧?
回复

使用道具 举报

🔗
 楼主| zhichengguo 2019-5-28 13:28:02 | 只看该作者
全局:
lasso regression的dependent variable不能是binary variable? 即使像logistic 一样做logit transformation也不行?
回复

使用道具 举报

🔗
xujw07 2019-5-28 13:33:56 | 只看该作者
全局:
zhichengguo 发表于 2019-5-28 13:28
lasso regression的dependent variable不能是binary variable? 即使像logistic 一样做logit transformation ...

.google  и你说的是regularized logistic regression?Lasso是regularized linear regression.
回复

使用道具 举报

全局:
是classification不是linear关系。
回复

使用道具 举报

🔗
erince 2019-5-28 15:13:55 来自APP | 只看该作者
全局:
xujw07 发表于 2019/05/28 13:33:56

. 1point3acres.com
你说的是regularized logistic regression?Lasso是regularized linear regression.
. ----
LASSO和rigid仅仅是model在fitting过程中,对于less important features的系数的处理方式不同。一个keep all less important features 和 他们的系数,一个直接set less important features的系数为0。

linear regressor和logistic regressor一个是linear model的api而一个是classification model的api。两者都可以利用lasso和rigid处理less important features。
回复

使用道具 举报

全局:
一般不会用L1做特征选择的,一般都是需要稀疏解 压缩模型的时候用L1-baidu 1point3acres
关于L1,楼主可以想一个场景 假设特征1号和特征2号几乎一模一样,并且对模型有很高重要性,那么过了一遍L1后,二者的情况会是怎么样的,搞清楚这个就搞请了L1的原理



-baidu 1point3acres

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表