楼主: leth
跳转到指定楼层
上一主题 下一主题
收起左侧

转载个大数据的段子

🔗
 楼主| leth 2013-1-5 14:19:01 | 只看该作者
全局:
小K 发表于 2013-1-5 12:11
传统行业BI用analytics现在很多,但是未必是大数据
point of sale数据跟互联网数据量不是一个级别的
一天 ...

也有人说,专心搞小数据就行了,从现有的东西到大数据很容易
回复

使用道具 举报

🔗
kevinhan4089 2013-1-5 18:14:59 | 只看该作者
全局:
leth 发表于 2013-1-5 13:14
也对,大数据基本都在大公司,我记得某个数据库顶级会议在讨论学术界要何去何从。一通百通我喜欢

我其实也是啥都不懂。。。我本科EE的,研究生在做机器学习方面的东西,不过,我觉得还是要打好基础吧,自学看课本以及跟着上公开课,我个人认为这个很关键,好像是李开复吧,大体意思是说的褪去浮躁的东西,专注于核心本质东西,就和扎马步一样,马步扎的好和不好,对以后发展有很大影响,楼主好好加油,共勉
PS:谢谢你的加分
回复

使用道具 举报

🔗
rogerdai 2013-1-5 18:56:08 | 只看该作者
全局:
kevinhan4089 发表于 2013-1-5 18:14
我其实也是啥都不懂。。。我本科EE的,研究生在做机器学习方面的东西,不过,我觉得还是要打好基础吧,自 ...
. 1point 3acres
同意且同感..虽然俺只是小本..
现在大数据的解决方案的流行分布式计算,比如hadoop,mahout什么的...
.. 但hadoop的核心会回归到基础的概念,比如RPC,比如矩阵计算。。。
大数据上的机器学习,我觉得最有趣的是..
当数据量几Gb或者几十Gb,串行能搞定~
当百Gb的时候,mapreduce能搞定像logistic regression的~ ..
而到Tb的时候,mapreduce就对机器学习无能为力了~一些HPC的方法才行了~
当我们知道大数据表现的是复杂模型的时候,然后发现..
用复杂模型去fit大数据 -> almost impossible,计算量几乎不可接受
先预处理数据,洗到一个可以接受的量 -> sounds a good idea!
这是我的一点点体验.... From 1point 3acres bbs
谢谢LZ的加分,让我终于...我也当...当上了...勤奋农民!
回复

使用道具 举报

🔗
 楼主| leth 2013-1-5 19:19:09 | 只看该作者
全局:
rogerdai 发表于 2013-1-5 18:56
同意且同感..虽然俺只是小本..
现在大数据的解决方案的流行分布式计算,比如hadoop,mahout什么 ...

对HPC不甚了解呢,是高性能计算的意思吗?听说有个新的基于HDFS的GraphLab,把计算分为三个阶段,更适用于挖掘
回复

使用道具 举报

🔗
 楼主| leth 2013-1-5 19:22:08 | 只看该作者
全局:
kevinhan4089 发表于 2013-1-5 18:14
我其实也是啥都不懂。。。我本科EE的,研究生在做机器学习方面的东西,不过,我觉得还是要打好基础吧,自 ...

希望有机会能出国扎马步
回复

使用道具 举报

🔗
rogerdai 2013-1-5 20:36:59 | 只看该作者
全局:
leth 发表于 2013-1-5 19:19
对HPC不甚了解呢,是高性能计算的意思吗?听说有个新的基于HDFS的GraphLab,把计算分为三个阶段,更适用于 ...
..
嗯..是高性能计算的意思.
GraphLab我也是刚听说~也不了解了~
更多的资料可以看看:http://alex.smola.org/teaching/berkeley2012/index.html.google  и
嗯嗯..一同学习..
回复

使用道具 举报

🔗
modifiedname 2013-1-5 20:58:15 | 只看该作者
全局:
leth 发表于 2013-1-5 01:16
现在主要应用是医疗和商业否?
就商业应用来看,感觉现在大数据似乎都是在营销和客户关系管理方面的应用, ...

这个。。。。

biostat和health insurance是做你说的医疗相关的,除了普通统计,还需要econometric知识. check 1point3acres for more.
这些已经比较成熟了吧
human disease数据完全不大,而且感觉不是新兴行业了,欧洲和美国都做的很成熟了的样子

唯一能占大的,是bioinfo那一套吧,sequencing什么的

你说的那些issue早就被考虑的要死了。。。。国内被adopt的概率,个人感觉,很低。again,思路问题。。。。。

financial 我不懂了,号称是现在用DM, ML也能做点新东西,但是这个我完全不懂就不乱讲了。
回复

使用道具 举报

🔗
modifiedname 2013-1-5 21:00:20 | 只看该作者
全局:
leth 发表于 2013-1-5 00:20
我在想其实小公司也是可以利用微薄,fb和电商的数据的。大数据会不会是量变引起质变呢

already
-baidu 1point3acres
非IT类小公司处理这种数据能力上,管理social media上困难重重
这些的麻烦不是在数据上,数据分析再怎么牛逼,domain knowledge加上,才能做决策,才能最终赚钱
其他那些“软”方面,麻烦的要命,social media上的投入,别提下公司了,大公司收益都有限,. 1point3acres.com
对决策多,数据需要的相对低端,人手有限的小公司来说,只能要么找outside consultant,要么放弃

我肉眼观察(没有大规模调查啊),这个也不靠谱的。。。。
回复

使用道具 举报

🔗
 楼主| leth 2013-1-5 21:22:11 | 只看该作者
全局:
小K 发表于 2013-1-5 20:58 . check 1point3acres for more.
这个。。。。.

biostat和health insurance是做你说的医疗相关的,除了普通统计,还需要econometric知识 ...

感觉很多大数据的书和文章首先讲的都是医疗啊,虽然我也没仔细看
回复

使用道具 举报

🔗
kevinhan4089 2013-1-5 22:20:21 | 只看该作者
全局:
leth 发表于 2013-1-5 19:22
希望有机会能出国扎马步

我也是希望有机会出国扎马步啊,呵呵,共勉
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表