一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 1917|回复: 22
收起左侧

[OPT] OPT Extension的Comment都在谈论什么?用Data Science的方式为你解答

[复制链接] |试试Instant~ |关注本帖
firstprayer 发表于 2015-11-7 05:59:52 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
本帖最后由 firstprayer 于 2015-11-7 06:16 编辑

今天刚刚被opt Extension相关的消息刷屏了,说是最近几天在OPT Ext公示的网站下面出现很多负面评价,于是乎有不少人在各大出国留学/工作的平台上发帖呼吁大家去刷正面评价。于是在顺手灌了一发水之后,我手贱点开了所有评论,想看看大家都在说什么。


                               
登录/注册后可看大图

点开之后是这样的,起初几条看起来都不错。唔,不过六千多条,懒得翻后面,写个程序爬一下吧(这里发现发现数据是用javascript加载的,不能直接爬,于是打开Chrome的调试器hack一下。不过貌似这里用的是GWT,数据格式非常奇怪,下载下来有点解析小问题,将就用了),最终有效数据大概5000多条。

那么问题来了:正面评价/负面评价各多少?根据个人感觉,正面评价要远远多于负面评价。这好像是一个domain specific的sentiment analysis的问题,身为一个身怀三脚猫功夫的Data Science的学生,那怎么能不用machine learning这种高大上的工具来解决问题呢!但是!没有标注数据啊!只好先作罢,脑补了几个关键词分别代表正面和负面。
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
正面的关键词有:
‘support', 'agree', 'pass', 'benefit', 'great', 'approve', 'recommend', 'necessary', 'good', 'boost', 'great','welcome’
. more info on 1point3acres.com
负面的关键词有:
'oppose', 'disapprove', 'disagree', 'hurt', 'stupid', 'stop', 'suffer', 'citizens', 'cheap'

这个短小精悍的关键词列表是经过迭代的!我基本遵守高precision不管recall原则,先选一些比较明显的,然后拿来当一个朴素的分类器,找出一些positive和negative,然后人肉标注一下,再分别统计下positive和negative下各自的高频词汇,然后加入到列表里。比如,'citizens'这个词出现频率很高,因为反对的评论里面很大一部分都是以"把工作机会留给American Citizens"作为理由。当然这个列表里面有些词并不是绝对准确的,比如"hurt",反对者一般说“这个法案hurt了本国公民的利益”,有赞成的人说“如果没有这个方案就会hurt美国的经济”,不过前者居多。

于是,经过这样一个人肉semi-supervised learning的过程之后,大概得到:

2000多个正面评价,200个负面评价,和2000多个中立评价。

precision还是很高的,然而recall确实不高。人肉查看了一下2000个中立评价,个人感觉也还是正面评论居多。但是这个比例似乎有点高,于是,我另外随机取了200个样本,继续人肉标注,最终在这个样本里面正面比负面的比例大概是3:1左右。
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
最终,根据两次人肉标注的数据,随便拿了个LR分类器实验了一下(处理了一下数据不均衡的问题,cv出来的score还算不错),得到正面:负面是2900: 2400. 真实的比例应该要比这个高一点,因为人肉(真的只能人肉……)看了一下,感觉false positive比false negative出现的几率要少点。

所以最终的结论是,肯定正面评论目前为止是多于正面评论的。
-google 1point3acres
姓名中的端倪
我很好奇投赞成票和投反对票的都是什么人,于是上网找了一个印度姓氏表和中国姓氏表(其实就是百家姓……),稍微实验了一下,结果发现:
  • 一半以上的赞成票来自于中印两国,而在反对票中这个比例只有不到20%(估计很多都是分类错的,中国人应该都是赞成的)
  • 来自中国的票貌似更多——可能是前阵子的号召确实起了作用,大家都去投票去了(当然也有可能是我找的印度姓氏表不全……毕竟印度的姓氏各种千奇百怪……)
    . 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
Anyway,还是比较符合直觉的。. 鍥磋鎴戜滑@1point 3 acres

关键词
然后,我找出那些在positive和negative两个列表里document frequency相差最大的一部分词,分别作为positive和negative的高亮关键词。发现了一些比较有意思的现象
.1point3acres缃
  • "strongly" 这个词出现在positive的频率非常高,比negative要高。直觉来说,strongly可以说agree也可以说disagree。继续肉眼查看数据,发现咱们国人大多数留言都是类似于"I strongly agree with..."这种的。短小精悍,挺好;然而灌水还是有点水平比较好……这里推荐一个链接大家看看如何正确地灌水 http://www.1point3acres.com/bbs/ ... ne&isappinstalled=0
  • 出现在负面评价中的高频词有"wage", "pay", "hire", "jobs"等等。毕竟他们的理由都是美国人的失业率太高啦,不要让国际劳工抢饭碗啦,之类的。比较神奇的是出现了一个“medicare",这个估计是个outlier,某(几)个人在吐槽的时候顺便吐槽了一下medicare吧


. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
时间线
我对所有评论按照时间排序,发现如下:

                               
登录/注册后可看大图
上方是正面评论,下方是负面。可见,大部分负面评论时间较早,而正面评论是后来居上,在出国党的号召下大家奋力回击,从而扳回劣势啊!

其他
在查看负面评价的时候我发现这群孩子特别喜欢用惊叹号……大概是愤愤之情难以言表吧。稍微统计了一下,惊叹号的使用频率在负面评价里大概是正面评价里的2到3倍的样子。同理,在负面评价里也更有可能出现大写的英文字母,估计还是为了强调语气


最后,贴一个链接,大家有空也去灌灌水吧!
http://www.regulations.gov/#!documentDetail;D=ICEB-2015-0002-0011

本文来自我的公众号,欢迎扫码关注!
.鏈枃鍘熷垱鑷1point3acres璁哄潧
                               
登录/注册后可看大图



评分

4

查看全部评分

leeshell 发表于 2015-11-7 06:33:00 | 显示全部楼层
太厉害了!
大家快去刷评价吧,最近负面评价真的快压过正面评价了
回复 支持 反对

使用道具 举报

JESSIE5590 发表于 2015-11-7 06:50:21 | 显示全部楼层
赞楼主,希望继续看到更新版的分析。。。现在已经有6900多条po出来的评论了,今天多了很多负面评论。而且还有3000多条没有po出来的,应该也是负面的居多。
回复 支持 反对

使用道具 举报

micheljyc 发表于 2015-11-7 07:31:16 | 显示全部楼层
楼主可在知乎发帖,会火的!
回复 支持 反对

使用道具 举报

laurie洁 发表于 2015-11-7 07:34:35 | 显示全部楼层
大神的技术贴,科学分析comment优劣势~~膜拜
回复 支持 反对

使用道具 举报

liusicong999 发表于 2015-11-7 11:51:11 | 显示全部楼层
膜拜大神的专业分析!!
回复 支持 反对

使用道具 举报

liusicong999 发表于 2015-11-7 11:51:24 | 显示全部楼层
而且这才是学以致用的最好方式
回复 支持 反对

使用道具 举报

aoko 发表于 2015-11-7 13:45:23 | 显示全部楼层
学以致用 非常棒! 搞得我都想学ML了
回复 支持 反对

使用道具 举报

neostar2008 发表于 2015-11-8 07:50:13 | 显示全部楼层
lz,最近几天负面评论激增,能不能修改下结论,号召大家都去comment……? 如果读者看到支持评论更多的结果,可能就懈怠不去评论了……

PS:看见LZ在知乎上的post了 :)
回复 支持 反对

使用道具 举报

AnakinFoxe 发表于 2015-11-9 02:06:09 | 显示全部楼层
楼主,把你的爬虫再放出去抓一下分析一下最新战况吧
回复 支持 反对

使用道具 举报

闲庭听雨 发表于 2015-11-9 02:31:36 | 显示全部楼层
这个结论已经不准确了!!最近几天负面评论激增!!大有反扑之势!
回复 支持 反对

使用道具 举报

loganuci 发表于 2015-11-9 02:34:08 | 显示全部楼层
同MLer赞楼主!貌似该更新一下战况了~
回复 支持 反对

使用道具 举报

qingbinlee 发表于 2015-11-9 03:13:48 | 显示全部楼层
楼主更新一下结果吧,最近负面评论激增,看完你的文章大家估计都会有惰性
回复 支持 反对

使用道具 举报

aloncgo 发表于 2015-11-9 04:12:52 | 显示全部楼层
求LZ更新战况啊。。。
回复 支持 反对

使用道具 举报

RobertCheng 发表于 2015-11-9 04:43:29 | 显示全部楼层
建议再跑一下,看看负面评论这两天多到什么程度了
回复 支持 反对

使用道具 举报

tili 发表于 2015-11-9 05:14:57 | 显示全部楼层
楼主能不能给看一下代码啊?学习一下怎么搜集和分析评论的?谢!
回复 支持 反对

使用道具 举报

诸神黄昏泪 发表于 2015-11-9 05:33:13 | 显示全部楼层
楼主,你能用你的方法再做一次数据分析吗?看看现在的情况?
回复 支持 反对

使用道具 举报

Z君 发表于 2015-11-9 05:47:44 | 显示全部楼层
强力支持!楼主定期update一下分析结果呦!
回复 支持 反对

使用道具 举报

justin 发表于 2015-11-9 06:00:32 | 显示全部楼层
By the way, I wonder how they finally decide whether to pass the policy or not? Do they apply the same data science techniques lz used here?
回复 支持 反对

使用道具 举报

loganuci 发表于 2015-11-9 07:07:45 | 显示全部楼层
我也很好奇他们最终怎么决定通过,每个comment的weight是怎么决定的。给每个comment算一样的weight肯定是不可能的,有些很短很无理的应该会被算成0或接近于0. 至于怎么样的会算成大weight,应该难以避免人工标注的主观因素
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-11 11:24

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表