查看: 7480|回复: 12
收起左侧

Google : 大数据量去重

|只看干货 |数据科学
头像被屏蔽

分享帖子到朋友圈
wwwyhx | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽

上一篇:10sub math回忆题
下一篇:关于GRE sub math的一些经验总结和注意事项
头像被屏蔽
 楼主| wwwyhx 2011-7-6 00:13:16 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

sing1ee 2012-10-2 11:30:17 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (2)
 
 
0% (0)    👎
400M太大了,用bloomfilter吧,在里面的,不会判断错的。
回复

使用道具 举报

marymachine 2012-11-3 23:49:40 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   0% (0)
 
 
0% (0)    👎
这个论坛的刷分方式都好独特啊,很有趣的设计
回复

使用道具 举报

mengyi2008 2012-11-4 06:03:15 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (39)
 
 
0% (0)    👎
刚学到bloomfilter……这学期的算法基本都是数学了……
回复

使用道具 举报

nooneknow 2012-11-5 05:50:53 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   94% (48)
 
 
5% (3)    👎
如果不是太集中,还有的解法是bucket 排序吧。

这个题一定得限制内存,不然直接bitmap,太简单了。
回复

使用道具 举报

nooneknow 2012-11-5 05:51:28 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   94% (48)
 
 
5% (3)    👎
bloomfilter只适合code完了提一提,真正code不好弄啊。
回复

使用道具 举报

yuliang 2012-11-22 06:46:33 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (132)
 
 
0% (1)    👎
这个数据,如果是一个一个int的话,想用记事本打开,必然挂掉。能不能运用mapreduce做,还是限制了一台机器?
回复

使用道具 举报

咪崽 2012-11-28 10:53:54 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   85% (6)
 
 
14% (1)    👎
yuliang 发表于 2012-11-22 06:46
这个数据,如果是一个一个int的话,想用记事本打开,必然挂掉。能不能运用mapreduce做,还是限制了一台机器 ...

MapReduce 确实是好办法...

但用MapReduce来解决这个问题的话 那么这道题就显得没有意思了.....
回复

使用道具 举报

nooneknow 2012-11-29 02:12:11 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   94% (48)
 
 
5% (3)    👎
yuliang 发表于 2012-11-22 06:46
这个数据,如果是一个一个int的话,想用记事本打开,必然挂掉。能不能运用mapreduce做,还是限制了一台机器 ...

公司coding主流不是windows这种烂系统,是linux,所以也根本不是记事本打开。直接call文件的lib。应付几G的数据量都是一个简单的open就能解决的事情。

假设数据量不是13M而是13T。数据类型不是整型而是每行一个字符串。
这题最标准的解法应该是 分而治之+Hash

google 海量数据处理,能搜到这个帖子,http://blog.csdn.net/v_JULY_v/article/details/6279498

看完这个,足以应付google和facebook再出这种bt的题。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

隐私提醒:
■拉群请前往同学同事飞友|拉群结伴版块,其他版块拉群,帖子会被自动删除
■论坛不能删帖,为防止被骚扰甚至人肉,不要公开留微信等联系方式,请以论坛私信方式发送。
■特定版块可以超级匿名:https://tools.1point3acres.com/thread
■其他版块匿名方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

>
快速回复 返回顶部 返回列表