一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 1342|回复: 5
收起左侧

[BigData] 关于大数据Hive和Hadoop的疑惑

[复制链接] |试试Instant~ |关注本帖
y5yeyey 发表于 2015-9-5 17:00:54 | 显示全部楼层 |阅读模式

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
首先定义一下本贴的数科不算“大数据平台开发”之类偏底层开发的工作内容,更多是上层的分析。
工作中会用到Hive做查询和跑数据,就是写SQL利用Hive调用hadoop。

在实际工作中,其实完全就是SQL,前期写好脚本封装好函数,就能写SQL来做query和summary。个人感觉和大数据一点关系都没有,底层的hadoop怎么跑的,瓶颈限制在哪,原理是啥我一概不知道。
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
除了写SQL做查询之外,还会有建表建索引入库分区之类的数据库操作,之后就是建模和分析了。目前偶尔有数据平台后端开发,使用scala。. From 1point 3acres bbs

整个流程就是:底层运行大数据的环境准备好了(一直是准备好的) -> 写SQL查询 -> 存储数据和转换成文本(py) -> 建模和分析(py,R,并非亿级别的行为明细数据)

完全没有感受到大数据大在哪个地方。所以我想问:

1. 如果一个公司要求应聘者有“大数据”的经验,上述这种基本纯粹写SQL的工作内容,应该是不算有“大数据”的经验吧?
. From 1point 3acres bbs
2. 如果是有“大数据”的经验,那么应该是怎么样的呢?能划分为“底层”开发和“上层”分析最好了,还请赐教!

3. 目前是在开发某个监测模型,是放到服务器里跑的,但是没有到秒级别的实时更新,也没有用到任何的高大上机器学习的东西,完全就是统计GLM的内容。感觉就是写SQL一点前途都没有,而且SQL这种东西根本不算大数据吧。那么这种性质的工作,算作 data analyst 还是啥呢?

我本科美本统计,目前在国内工作。谢谢各位指导!
. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴



评分

1

查看全部评分

 楼主| y5yeyey 发表于 2015-9-6 00:50:54 来自手机 | 显示全部楼层
竟然没人搭理,唉不说了。大家估计都很忙。
回复 支持 反对

使用道具 举报

小K 发表于 2015-9-6 14:11:45 | 显示全部楼层
我觉得可以号称大数据了,貌似别人都这么在做。

秒级别更新的需求其实没有想象的那么大
我也不太久之前才明白很多以为非常高大上的对象,都是用天为单位更新,或者用小时为单位的,具体例子不能说,但是绝对是大家都认得的大公司。

大数据比如建数据平台(set up hive, connect pipes)肯定算,优化过程肯定算. 鍥磋鎴戜滑@1point 3 acres
你把event log之类东西处理转换成一定格式,整理储存,让BI部门的人能在上面写query,让ML的人能在上面建模,这就是大数据
有的GLM你R or Py跑不了,必须scala/spark类似的办法跑,那个肯定算大数据
如果有的统计或者机器学习模型,没有任何out of the box包直接能用,而要自己customize, or, even invent a new one,hadoop/spark etc写个函数实现出来,那肯定是大数据
其实吧我个人觉得能存在local跑跑的,都不是大数据,但是大数据的exploratory阶段,取出“小数据”在本地里做,那是非常正常的。

. from: 1point3acres.com/bbs

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| y5yeyey 发表于 2015-9-6 23:40:21 | 显示全部楼层
本帖最后由 y5yeyey 于 2015-9-6 23:41 编辑
小K 发表于 2015-9-6 14:11
我觉得可以号称大数据了,貌似别人都这么在做。. 鍥磋鎴戜滑@1point 3 acres
. from: 1point3acres.com/bbs
秒级别更新的需求其实没有想象的那么大

首先多谢K姐答疑解惑!

怪我说的不清楚,这个数据平台不是指底层的大数据平台,而是指在公司内部使用的一个后台数据展现系统。(dashboard?)

例如代码管理git,个人网页wordpress后台系统,选课系统BBLearn 等等。我们数据平台就是这样的一个后台系统,有各种可视化的数据展示。

比如说今天某个产品卖了多少钱,有个按时间走势的折线图展现该产品的销售趋势,用户来源渠道等等。
. more info on 1point3acres.com
基本类似下面的这样一个东西。(图自百度,侵删)组里用的scala是写的后端逻辑。

10002.gif


目前在跑的GLM是用py和R的混合模型,其实相当于离线模型,基本是每天更新一次样本集,同时更新模型。数据量不大,不需要调用hadoop也能跑。在本地laptop上也是可以跑的,就是比较吃力,目前也就是调用了几个函数,没有到自己customize model的地步,更谈不上分发计算量给集群。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
.鏈枃鍘熷垱鑷1point3acres璁哄潧
未来很可能会遇见的情况,我写写自己的想法:.鐣欏璁哄潧-涓浜-涓夊垎鍦


1. 首先样本量迅速变大导致服务器每天调度脚本会占用很多资源,影响其他脚本的调度以及稳定。 鏉ユ簮涓浜.涓夊垎鍦拌鍧.

我能想到的解决方案:把ETL得出样本集和运行模型两步骤分开,更频繁地做ETL添加新样本,但是跑模型只能一次去跑,不能分开多步。即新数据完全进入了样本集,再一次去fit model。
算不算大数据:不算
好处:自己不需要去改库里封装好的算法和函数,本地(laptop,server)也能跑。


2. 跑模型的时候,服务器内存不够读不了那么多数据;或者运行时间太长占用资源同时影响稳定性。

我能想到的解决方案:模型拟合通过mapreduce完成,需要自己去写这个实现。结合前面的分布式ETL,模型拟合可以不断进行。但是每次拟合都是在前一次ETL完成的前提下,不会出现一边ETL一边fit model的情况。. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
算不算大数据:算
-google 1point3acres
和 1. 的区别:把GLM给做了分解,自己customize了模型。
好处:终于有大数据实践经验了!LOL!
. From 1point 3acres bbs



. 1point 3acres 璁哄潧
3. 一边ETL一边fit model一边forecast,每次有新数据集进来的时候,某些被选中的group会重新做拟合改模型中的某个部分,但其他部分不变。纯属个人YY,画面太美不敢想象。。。




我其实还是很希望能在自己手上能实现一个类似实时性的数据产品的。这样gap一年不至于啥都没学到。。。 鏉ユ簮涓浜.涓夊垎鍦拌鍧.

最后多谢回复! 鏉ユ簮涓浜.涓夊垎鍦拌鍧.


请忽略最后一张图,不知为啥乱入了。。。抱歉抱歉
06aa918fa0ec08fae9a2a0205bee3d6d57fbdac5.jpg

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

小K 发表于 2015-9-7 02:06:53 | 显示全部楼层
dashboard 基本上是基于ETL做个展示,反正业内不少人也是拿这个号称大数据
我个人持呵呵态度,当然对公司来说也不是没用。。。. 1point3acres.com/bbs
对个人来说,根本不需要一个advanced degree来做
我没做过实时产品就不多妄谈了,model用mapreduce完成---我假定你说的是调用spark之类把
直接从最低下mapreduce写起,代码速度太慢了把,也没必要reinvent the wheel
回复 支持 反对

使用道具 举报

 楼主| y5yeyey 发表于 2015-12-7 19:38:30 | 显示全部楼层
小K 发表于 2015-9-7 02:06. 1point 3acres 璁哄潧
dashboard 基本上是基于ETL做个展示,反正业内不少人也是拿这个号称大数据
我个人持呵呵态度,当然对公司 ...

抱歉最近忙没有及时回复~

目前的model所用到的数据在HDFS上,是使用 Hive transform Python 完成的MapReduce,没有自己写Java封装调度,也没有在 Hadoop steaming Python/R。
.鐣欏璁哄潧-涓浜-涓夊垎鍦
Spark很新鲜, 我这边还没接触,不过在年前估计会有机会。

感谢回复!
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-3 04:22

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表