一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 2099|回复: 29
收起左侧

[DataScience] 有用数据挖掘挖出有价值的孩子吗?

[复制链接] |试试Instant~ |关注本帖
Poalo 发表于 2014-2-17 04:52:16 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
为什么感觉现在BIG DATA概念很火,但实际挖掘出来的大部分都是常识?

本帖被以下淘专辑推荐:

readman 发表于 2014-2-17 07:14:50 | 显示全部楼层
是的.
你见过个人拿到过有价值的,"BIG" data 的么?
现在公司都把数据看做生命..能挖早自己挖了, 小伙伴想自己挖着玩困难啊
回复 支持 反对

使用道具 举报

鲁迅 发表于 2014-2-17 10:22:47 | 显示全部楼层
现在上层应用研究速度严重跟不上下层技术架构的发展速度。。。有点本末倒置了. 鍥磋鎴戜滑@1point 3 acres

各种新的“大”数据技术架构层出不穷,而上层的数据挖掘得出的结论其实还和过去用excel做“小”数据分析得出的结论没大差。。。
回复 支持 反对

使用道具 举报

anonym 发表于 2014-2-18 08:32:58 | 显示全部楼层
鲁迅 发表于 2014-2-16 21:22
现在上层应用研究速度严重跟不上下层技术架构的发展速度。。。有点本末倒置了
. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
各种新的“大”数据技术架 ...

举个例子详细讲讲?
回复 支持 反对

使用道具 举报

小K 发表于 2014-2-18 08:48:30 | 显示全部楼层
recommender system at netflix, amazon?
complex algo behind search engine ranking system?
the numerous online experiments that you are unaware of, but drive shipment of the many tweaks behind both UI rendering, appearance/position of stuff, and adding features etc at facebook, google, ...?
e.g. wikipedia donation campaign. (30+ variants tested, clear winner shown).1point3acres缃

association rule mining at walmart that tells them what to stock where and when?
.1point3acres缃
the predictive models at target that can identify pregnant women and their due dates so they can send targeted ads and drive up cross sell significantly?. visit 1point3acres.com for more.

the classification rule used for segmentation that identify platinum/gold etc users and let companies focus their marketing effort?

航空公司根据need计算票价

tweats predict stock price
google queries predict influenza outbreak weeks ahead of CDC

facebook timeline update associated with "single/dating" status (see new data blog from facebook), very recent

quora, stackoverflow, wikipedia etc study that shows certain policy of site drives human behavior

.鏈枃鍘熷垱鑷1point3acres璁哄潧
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
not many of these are available to outsiders though.

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

小K 发表于 2014-2-18 09:03:51 | 显示全部楼层
另外,说这些insight是小数据也能知道的,个人感觉不是。
别人已经发现以后,当然容易用小数据去confirm
但是之前呢?你面对的可以是巨量的ideas from common sense. 1point 3acres 璁哄潧
you can't tell which one is gonna work
analyzing a small subset (in excel or not) can give you some big directions, yes
but nowadays ppl like to drive profits into those niches as well, and believe it or not, those niches add up
回复 支持 反对

使用道具 举报

鲁迅 发表于 2014-2-18 10:45:00 | 显示全部楼层
本帖最后由 鲁迅 于 2014-2-18 11:04 编辑
anonym 发表于 2014-2-18 08:32
举个例子详细讲讲?

就现实应用情况而言:

1、如电信、银行类的数据挖掘平台,所谓的 “大数据”在后端来说仅仅是提升了存储,使得数据的存储量提升,分析时候可以获得更宽泛时间数据的信息。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
而实际上数据的粒度并没有变小,同时采用的数据挖掘算法还是那些个经典算法,根据这些个算法“很早”之前的历史数据很难对现在的情况作出正确的预测。

2、当今数据挖掘最热的应用也就是推荐系统,A家的推荐系统案例,
以及炒热“大数据”概念经典的沃尔玛啤酒与尿布的案例(这个案例是我司的得意之作,经常拿出来吹牛逼,真假不知),
但相关的推荐算法其实数据量到达一定程度之后,数据量的明显提升就不会带来推荐精确度的明显提升了。(也就是系统的投资回报率随着数据的爆炸性增长却没有显著提升)

3、如今mapreduce、tez、spark等等计算框架平台层出不穷,分布式存储可扩展性越来越好、查询性能节节攀高、数据量也是各种突破天际, 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
可当今的“大数据”算法和“小数据”的数据挖掘产生的结果有多大差别其实很难说很明显。很多公司上了最新的数据平台还是大幅亏损,很多公司还用的老的数据分析平台也依然坚挺。. more info on 1point3acres.com

个人觉得现今“大数据”的目的更多是对数据的有效存储和分布式查询的效率提升,等待日后学术界真正匹配的大数据有效算法(能把投资转换成利益,可以随着数据量线性提升的算法)投入工业界。
但毕竟“大数据”是趋势所在,未来一定是会挖掘出更大价值,所以现今的投资也是必需的,万里长征也才刚刚开始,不能输在起跑线上。
.鐣欏璁哄潧-涓浜-涓夊垎鍦
~
P.S. 这说的“大数据”到底多大算是大,“小数据”到底多小算是小其实没有明确界定,只能说明天的数据总量相较今天肯定是“大数据”。


评分

3

查看全部评分

回复 支持 反对

使用道具 举报

wesley 发表于 2014-2-18 11:02:15 | 显示全部楼层
楼上说的都好  不过 根据有限的经验 数据越多得到的结论越精确吧 可以探索的东西也更多
回复 支持 反对

使用道具 举报

readman 发表于 2014-2-18 11:09:24 | 显示全部楼层
鲁迅 发表于 2014-2-18 10:45
鏉ユ簮涓浜.涓夊垎鍦拌鍧. 就现实应用情况而言:

1、如电信、银行类的数据挖掘平台,所谓的 “大数据”在后端来说仅仅是提升了存 ...

我要吐槽, mapreduce是理论, 不是框架~
回复 支持 反对

使用道具 举报

鲁迅 发表于 2014-2-18 11:12:15 | 显示全部楼层
readman 发表于 2014-2-18 11:09
我要吐槽, mapreduce是理论, 不是框架~

Yarn出来以后现在版本已经作为一个框架产品在维护了。。。
回复 支持 反对

使用道具 举报

readman 发表于 2014-2-18 11:17:13 | 显示全部楼层
鲁迅 发表于 2014-2-18 10:45 . 1point 3acres 璁哄潧
就现实应用情况而言:
. 鍥磋鎴戜滑@1point 3 acres
1、如电信、银行类的数据挖掘平台,所谓的 “大数据”在后端来说仅仅是提升了存 ...

然后, 我觉得什么大数据时代, 全是炒作。 数据本身来自于服务产生的附加价值, 然后对此进行挖掘,或者什么算法后, 产生的价值,最多只能对服务进行优化,并不会产生真正意义上的二次价值。
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
就比如说, 你可以用用户的习惯来检索出用户可能购买的商品(如淘宝的广告)。但是真正从你推荐的地方去购买这种商品实际购买情况如何呢?你需要再次的统计, 这就相当于一个无限的递归(服务->数据->挖掘->服务->数据->挖掘)。虽然优化了服务, 但是实际价值的体现缺很少。 还不如一个广告直接打出去,然后换回的客户,要实在的多。

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

readman 发表于 2014-2-18 11:19:53 | 显示全部楼层
鲁迅 发表于 2014-2-18 11:12 . Waral 鍗氬鏈夋洿澶氭枃绔,
Yarn出来以后现在版本已经作为一个框架产品在维护了。。。
. more info on 1point3acres.com
我看到一个人, 从xxx万开房记录中, 挖掘的数据, 很有钱途!!
回复 支持 反对

使用道具 举报

鲁迅 发表于 2014-2-18 11:25:40 | 显示全部楼层
readman 发表于 2014-2-18 11:19
我看到一个人, 从xxx万开房记录中, 挖掘的数据, 很有钱途!!

这么说我觉得还是做连锁旅馆比较有前途,. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
等赚够了钱我开个连锁奶茶店,.1point3acres缃
再搞个连锁快捷酒店让家里老人经营
回复 支持 反对

使用道具 举报

readman 发表于 2014-2-18 11:28:08 | 显示全部楼层
鲁迅 发表于 2014-2-18 11:25
这么说我觉得还是做连锁旅馆比较有前途,
等赚够了钱我开个连锁奶茶店,
再搞个连锁快捷酒店让家里老人 ...

求你奶茶店里的 奶茶MM
回复 支持 反对

使用道具 举报

hetong_007 发表于 2014-2-18 11:40:28 | 显示全部楼层
各种业界里的应用可以从Kaggle上窥得一斑:http://www.kaggle.com/
上面有数据较大的比赛,也有数据较小的比赛。

数据量不小的几个例子:http://www.kaggle.com/c/lshtchttp://www.gequest.com/c/flight2-finalhttp://www.kaggle.com/c/belkin-energy-disaggregation-competition,以及很多其他的competition。这些数据大多数人都觉得不是“大数据”,这没问题。但是这些也不是“小数据”,而且这些数据里非常冗繁复杂的结构意味着在目前的数据量上,数据越多结论就应该越丰富和精确。

确实,拿1MB数据,1GB数据,1TB数据算一个平均数是没什么意义的,但是像Kaggle上面的许多任务都不是能通过1MB的数据得到任何有意义结论的。可以延展一下,有些结论通过1GB的数据可能还是不够强,人们要的就会更多。

而大家常常在公开的平台看到从“大数据”分析出的平凡结论,我个人猜测有这么几个原因:

1. 那是伪大数据的结论,可能也就几百行放进excel算一算就完了,毕竟拿任何数据都叫大数据的大数据婊不少见。
2. survivor bias,就是很有意义有价值的结论别人是不会公开告诉大家的,只会拿些很简单的东西出来给大家看看,造成了公众的认知偏差. From 1point 3acres bbs
3. 即使有公司愿意拿结果出来分享,其中非平凡的结论也有可能是大家不易懂的,或是难以描述导致宣传有偏差的,或者是因为不平凡所以结论泛化性差导致大家不感兴趣,各种原因导致最后没有得到足够的注意。

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

readman 发表于 2014-2-18 12:30:51 | 显示全部楼层
hetong_007 发表于 2014-2-18 11:40 -google 1point3acres
各种业界里的应用可以从Kaggle上窥得一斑:http://www.kaggle.com/
上面有数据较大的比赛,也有数据较小的 ...

Kaggle的数据过于规整。 完全是学术的。. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴

实际操作中, 很多数据根本不是那么有分析价值的。 或者, 你工作中更多的部分, 是分析出那些是误差,那些是有分析价值的数据。

就像我现在干的12.5某铁项目, 1个车,1秒就有几十M的数据量, 这些数据来自于西门子,庞巴迪,卡斯柯,等一堆公司的log。其中解码就非常费劲,然后各种不统一,数据的类型,变量,标量,对应编码系统什么的都是不一样的。何况里面有warn, 有error,还有通用的数据。 然后一天几个G就在哪, 你说那东西没价值吧? 那不可能。 你说有价值吧? 有毛线啊。。摘出来都困难。就算同一厂家,同一个设备,上边的模块都是来自于不同商家的。 你说怎么分析? 。。
回复 支持 反对

使用道具 举报

hetong_007 发表于 2014-2-18 12:43:47 | 显示全部楼层
readman 发表于 2014-2-18 12:30
Kaggle的数据过于规整。 完全是学术的。

实际操作中, 很多数据根本不是那么有分析价值的。 或者, 你 ...

这是一个体力活……清洗数据嘛,在kaggle上面的比赛也要做这一步,但是相比起来工作量确实会小很多。你说的这个情况非常烦,但是还挺常见的……

如果让我自己一个人做复杂数据的整合和清洗时容易晕头转向,做的事情不完整。复杂的活应该需要一个小团队来做,根据分析的明确目的来决定如何整理不同数据来源,然后要有头脑清晰的人时刻提醒不要钻牛角尖……. more info on 1point3acres.com

我听别人说过,数据挖掘的结果有七八成在清洗数据的时候就定下来了,洗的数据好不好,完全决定了后面的可视化能不能找到有用的信息,能不能通过模型跑出有意义的结果。反正可视化方法和模型基本上不同人用的结果不会差太多,而喂给分析工作什么数据,就变得至关重要了。Kaggle有人说他自己会用几套相似但是不同的方法来整理数据,然后放进模型里面跑看看哪个结果高。我觉得这个例子比较极端,但是能说明重要性。
. From 1point 3acres bbs
我也听说ebay内部是通过Topic Model来对大量log数据进行分类和自动化处理的,不知道这样的模式对你的工作有没有什么参考价值~
回复 支持 反对

使用道具 举报

小K 发表于 2014-2-18 12:57:35 | 显示全部楼层
variety and velocity are the other two features of big data.鐣欏璁哄潧-涓浜-涓夊垎鍦
大数据本身,大还不是最严重的问题

不是有说法么,哪怕是noisy data,只要够大,也总能跑出好用的结果来,超过更好的模型,但是much smaller, but "cleaner" training data
回复 支持 反对

使用道具 举报

readman 发表于 2014-2-18 13:18:58 | 显示全部楼层
hetong_007 发表于 2014-2-18 12:43
这是一个体力活……清洗数据嘛,在kaggle上面的比赛也要做这一步,但是相比起来工作量确实会小很多。你说 ...

- = 没有
TM是对有主题的模型分析,处理。
我们log的数据,是想做一个车辆报错后,通过故障树,找到故障类别和严重性什么的。然后分析产品线。。。
回复 支持 反对

使用道具 举报

鲁迅 发表于 2014-2-18 13:26:09 | 显示全部楼层
hetong_007 发表于 2014-2-18 12:43
这是一个体力活……清洗数据嘛,在kaggle上面的比赛也要做这一步,但是相比起来工作量确实会小很多。你说 ...

哈哈,每个项目80%时间都在捣腾ETL
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-4 19:10

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表