楼主: zhichengguo
跳转到指定楼层
上一主题 下一主题
收起左侧

Credit card churn model 不能用Lasso 或者linear model?

 
🔗
xujw07 2019-5-29 02:02:19 | 只看该作者
全局:
tianjiayangmike 发表于 2019-5-28 16:39
一般不会用L1做特征选择的,一般都是需要稀疏解 压缩模型的时候用L1
关于L1,楼主可以想一个场景 假设特征 ...
. From 1point 3acres bbs
求问大佬 不用L1做feature selection是工业界default吗?如果google 'feature selection with lasso'会出来很多结果啊,包括paper和kaggle project... 困惑。。。
回复

使用道具 举报

🔗
ecnart 2019-5-29 02:45:40 | 只看该作者
全局:
erince 发表于 2019-5-28 15:00. ----
楼主先看看lasso和rigid的定义。考虑L1和L2进model是为了regularization。less improtant的feature系数是否 ...

请问一下 为什么说lasso 跟feature selection没啥关系 如果把lasso把feature系数置0不算feature selection吗?谢谢!
回复

使用道具 举报

🔗
jzhao59 2019-5-29 03:29:42 | 只看该作者
全局:
Lasso只是一种regularization的方法,严格来说不能当作模型来讲,这种问题直接先上Logistic Regression,feature太多就加Lasso或者Ridge,效果不好换Tree-based的Ensemble模型。
回复

使用道具 举报

🔗
erince 2019-5-29 04:06:59 来自APP | 只看该作者
全局:
ecnart 发表于 2019/05/29 02:45:40. .и

. Χ
请问一下 为什么说lasso 跟feature selection没啥关系 如果把lasso把feature系数置0不算feature selection吗?谢谢!

不算。
有可能这次train的model,系数A是0,下次retrain,系数A不一定为0
回复

使用道具 举报

🔗
maohappy2013 2019-5-29 04:21:30 | 只看该作者
全局:
因为你predict的范围是0-1.linear regression有时候可能会predict1.1或者负值。那你要如何解释/处理?
回复

使用道具 举报

全局:
xujw07 发表于 2019-5-29 02:02
求问大佬 不用L1做feature selection是工业界default吗?如果google 'feature selection with lasso'会出 ...

我是**= =还没进入工业界. ----
不过我作过的数据竞赛经历里,基本没人用L1特征选择
其次,在上次面试的时候,和人聊过这个问题(他们是做点击率预估的),是面试官说不会用L1做特征选择的,甚至都不会做特征选择(当然具体问题具体分析,CTR这种大规模稀疏特征问题 特征选择意义就不大)

评分

参与人数 1大米 +1 收起 理由
xujw07 + 1 很有用的信息!

查看全部评分

回复

使用道具 举报

🔗
zhyan0606 2019-5-29 05:26:50 | 只看该作者
全局:
logistic regression名字叫regression 但是实际上是classification的方法 和计量经济学上取log是不一样的

churn如同前面大神所说 一般给的数据也是binary的(0为churn 1不是 这个样子的) 所以本质上还是 classification 并且理想情况下是一个估计概率的问题(区间为0-1)
所以RF等一系列classification的方法都可以用 而linear如果做出来结果大于1就没意义了
回复

使用道具 举报

🔗
momo_21 2019-5-29 06:26:19 | 只看该作者
全局:
可以看一下这些ref:

https://stats.stackexchange.com/ ... tion-for-regression
https://scikit-learn.org/stable/modules/feature_selection.html. ----
. 1point 3acres
Lasso是可以用来做feature selection的。
回复

使用道具 举报

🔗
ryanqi 2019-5-29 06:42:49 | 只看该作者
全局:
tianjiayangmike 发表于 2019-5-28 16:39
一般不会用L1做特征选择的,一般都是需要稀疏解 压缩模型的时候用L1
关于L1,楼主可以想一个场景 假设特征 ...
. ----
ridge tends to assign similar coefficients to the highly correlated predictors, while lasso tends to be different (and lasso estimators are not unique)
可以这样理解吗
回复

使用道具 举报

🔗
 楼主| zhichengguo 2019-5-29 06:49:41 | 只看该作者
全局:
erince 发表于 2019-5-28 15:00. check 1point3acres for more.
楼主先看看lasso和rigid的定义。考虑L1和L2进model是为了regularization。less improtant的feature系数是否 ...

请问一下lasso为什么不能用来做feature engineering, 他能够把不重要的predictor系数shrink 成~0, 也就是在选better/best features啊。 step wise选出来的应该不是最优解吧,原因好像是bias-variance trade off. Step wise 过于aggressive, 找不到全局最优解和predictor correlation.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表