查看: 2158| 回复: 10
跳转到指定楼层
上一主题 下一主题
收起左侧

[统计生统] classification问题。。。

全局:

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
**在做一个小课题。。。

假设Y是binary,现在有10W样本,但是只有500个Y是1,其他都是0.. From 1point 3acres bbs
现在想做classification...
. 1point 3acres
但是现在问题是,最普通的naive estimator,Y == 0 可以达到99.5%的准确率。 就算模型对training set有100%的正确率,也只比naive的常量估计高了差不多1%。

一般这种问题,需要预先对数据稍微处理么?还是依然可以用logistic之类的直接去做。因为目标主要是要classify,不是很在乎interpretation。但是试了一些模型,如果数据不经过任何处理,基本上和naive的精确度差不多(在test set上有些还不如naive的),或者像random forest直接就给出和naive一样的估计。

我觉得这种问题应该比较常见吧?一般的处理方式是什么呢?

恳求各位大神的意见。

上一篇:求问申请统计MS summer session对申请帮助大么
下一篇:duke biostat master campus visit的一点消息
🔗
hyper8866 2014-4-7 17:02:03 | 只看该作者
全局:
遇到同样问题 ,
我在想 是不是可以给500个样本加weight 让算法尽量分对他们
你那个99.5 估计是都分成0了 没什么用吧
回复

使用道具 举报

🔗
mlq90103 2014-4-10 23:16:21 | 只看该作者
全局:
楼主可以看下upsampling, downsampling, 或者通过调整ROC得判别点,这是比较general的方法,applied predictive modeling的书里有介绍,不记得那么多了。。

最近上课教授介绍了他们最新研究成果,解决class imbalance的问题,叫alpha-tree,你可以查下,有R包
回复

使用道具 举报

🔗
dennis_szsy 2014-4-11 00:41:39 | 只看该作者
全局:
分类器可以用AUC来比较吧,但这个方法貌似有缺陷
回复

使用道具 举报

🔗
 楼主| xingzhui222 2014-4-11 02:36:23 | 只看该作者
全局:
hyper8866 发表于 2014-4-7 17:02
遇到同样问题 ,
我在想 是不是可以给500个样本加weight 让算法尽量分对他们
你那个99.5 估计是都分成0了 ...
. ----
嗯,没什么用。。。
回复

使用道具 举报

🔗
 楼主| xingzhui222 2014-4-11 02:36:50 | 只看该作者
全局:
annimal 发表于 2014-4-10 21:55
https://d396qusza40orc.cloudfront.net/ml/docs/slides/Lecture15.pdf

machine learning 这章有说道这个 ...
. 1point3acres.com
好嘞,我看看哈。谢谢啦。
回复

使用道具 举报

🔗
 楼主| xingzhui222 2014-4-11 02:37:04 | 只看该作者
全局:
mlq90103 发表于 2014-4-10 23:16
楼主可以看下upsampling, downsampling, 或者通过调整ROC得判别点,这是比较general的方法,applied predic ...

感谢感谢。
回复

使用道具 举报

🔗
 楼主| xingzhui222 2014-4-11 03:11:23 | 只看该作者
全局:
mlq90103 发表于 2014-4-10 23:16
楼主可以看下upsampling, downsampling, 或者通过调整ROC得判别点,这是比较general的方法,applied predic ...

你推荐的这本书给了我不少启发,太赞了!!!
回复

使用道具 举报

🔗
mlq90103 2014-4-12 11:51:08 | 只看该作者
全局:
xingzhui222 发表于 2014-4-11 03:11 . 1point3acres.com
你推荐的这本书给了我不少启发,太赞了!!!

书中的图都有相应的code,网上应该能找着,比书中给的全一点
多多交流~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表