谈谈使用过的几款咖啡机

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
H1B/绿卡遥遥无期
又不想回国
来东南亚最大的互联网集团工作?
码农求职神器Triplebyte:
不用海投
内推多家公司面试
坐标湾区
Games Startup
招聘游戏开发工程师
游戏初创公司招聘工程师、UIUX Designer和游戏策划
查看: 768|回复: 10
收起左侧

[统计生统] classification问题。。。

[复制链接] |试试Instant~ |关注本帖
我的人缘0
xingzhui222 发表于 2014-4-7 14:25:05 | 显示全部楼层 |阅读模式
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
**在做一个小课题。。。

假设Y是binary,现在有10W样本,但是只有500个Y是1,其他都是0.
现在想做classification...

但是现在问题是,最普通的naive estimator,Y == 0 可以达到99.5%的准确率。 就算模型对training set有100%的正确率,也只比naive的常量估计高了差不多1%。 来源一亩.三分地论坛.

一般这种问题,需要预先对数据稍微处理么?还是依然可以用logistic之类的直接去做。因为目标主要是要classify,不是很在乎interpretation。但是试了一些模型,如果数据不经过任何处理,基本上和naive的精确度差不多(在test set上有些还不如naive的),或者像random forest直接就给出和naive一样的估计。
. Waral 博客有更多文章,
我觉得这种问题应该比较常见吧?一般的处理方式是什么呢?

恳求各位大神的意见。

上一篇:求问申请统计MS summer session对申请帮助大么
下一篇:duke biostat master campus visit的一点消息
我的人缘0
hyper8866 发表于 2014-4-7 17:02:03 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
遇到同样问题 ,
我在想 是不是可以给500个样本加weight 让算法尽量分对他们
你那个99.5 估计是都分成0了 没什么用吧
回复 支持 反对

使用道具 举报

我的人缘0
annimal 发表于 2014-4-10 21:55:06 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
https://d396qusza40orc.cloudfron ... lides/Lecture15.pdf
.留学论坛-一亩-三分地
machine learning 这章有说道这个问题
回复 支持 反对

使用道具 举报

我的人缘0
mlq90103 发表于 2014-4-10 23:16:21 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
楼主可以看下upsampling, downsampling, 或者通过调整ROC得判别点,这是比较general的方法,applied predictive modeling的书里有介绍,不记得那么多了。。

最近上课教授介绍了他们最新研究成果,解决class imbalance的问题,叫alpha-tree,你可以查下,有R包
回复 支持 反对

使用道具 举报

我的人缘0
dennis_szsy 发表于 2014-4-11 00:41:39 来自手机 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
分类器可以用AUC来比较吧,但这个方法貌似有缺陷.留学论坛-一亩-三分地
回复 支持 反对

使用道具 举报

我的人缘0
 楼主| xingzhui222 发表于 2014-4-11 02:36:23 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】

嗯,没什么用。。。
回复 支持 反对

使用道具 举报

我的人缘0
 楼主| xingzhui222 发表于 2014-4-11 02:36:50 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
annimal 发表于 2014-4-10 21:55 . visit 1point3acres for more.
https://d396qusza40orc.cloudfront.net/ml/docs/slides/Lecture15.pdf. visit 1point3acres for more.

machine learning 这章有说道这个 ...

好嘞,我看看哈。谢谢啦。
回复 支持 反对

使用道具 举报

我的人缘0
 楼主| xingzhui222 发表于 2014-4-11 02:37:04 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
mlq90103 发表于 2014-4-10 23:16 . visit 1point3acres for more.
楼主可以看下upsampling, downsampling, 或者通过调整ROC得判别点,这是比较general的方法,applied predic ...

感谢感谢。
回复 支持 反对

使用道具 举报

我的人缘0
 楼主| xingzhui222 发表于 2014-4-11 03:11:23 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
mlq90103 发表于 2014-4-10 23:16
楼主可以看下upsampling, downsampling, 或者通过调整ROC得判别点,这是比较general的方法,applied predic ...

你推荐的这本书给了我不少启发,太赞了!!!
回复 支持 反对

使用道具 举报

我的人缘0
mlq90103 发表于 2014-4-12 11:51:08 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
xingzhui222 发表于 2014-4-11 03:11
你推荐的这本书给了我不少启发,太赞了!!!

书中的图都有相应的code,网上应该能找着,比书中给的全一点
多多交流~
回复 支持 反对

使用道具 举报

我的人缘0
 楼主| xingzhui222 发表于 2014-4-13 09:47:47 | 显示全部楼层
  此人我要顶:
 
0% (暂未有人投票) 【我投】
  此人我要踩:
 
0% (暂未有人投票) 【我投】
mlq90103 发表于 2014-4-12 11:51
书中的图都有相应的code,网上应该能找着,比书中给的全一点
多多交流~
. 牛人云集,一亩三分地
嗯,这书和理论的书结合起来看貌似非常不错的样子。哈哈,再次感谢!
回复 支持 反对

使用道具 举报

游客
请先登录

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html





手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-6-24 01:33

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表