楼主: 池大侠
跳转到指定楼层
上一主题 下一主题
收起左侧

google onsite 目测要挂-回报大家

🔗
 楼主| 池大侠 2015-4-6 20:24:59 | 只看该作者
全局:
fishyuze 发表于 2015-4-6 02:36
duplicate file means the contents are same for some files with different id? like
id content
1 "a ...

没具体到内容,就是assume他们都一样
回复

使用道具 举报

🔗
 楼主| 池大侠 2015-4-6 20:26:34 | 只看该作者
全局:
refurbish 发表于 2015-4-6 06:52
之前是在手机上看的,第一题求一下讨论。

如果要得到某个数出现的概率,用一个长度为11的数组来对相应的 ...

这样容易overflow...我刚刚开始想这样做,后来想了一下用reservior sampling 长度为L 的 array纪录这样后面再统计就不会 overflow....
回复

使用道具 举报

🔗
fishyuze 2015-4-6 22:43:39 | 只看该作者
全局:
池大侠 发表于 2015-4-6 20:24
没具体到内容,就是assume他们都一样

我感觉主要难点就在怎么确定两个不同id的file是duplicate
可能我理解错了。。。
回复

使用道具 举报

🔗
wenruimeng 2015-4-7 00:43:42 | 只看该作者
全局:
一轮面的不好不一定要跪,耐心等待一下。
回复

使用道具 举报

🔗
refurbish 2015-4-7 01:09:19 | 只看该作者
全局:
池大侠 发表于 2015-4-6 20:26
这样容易overflow...我刚刚开始想这样做,后来想了一下用reservior sampling 长度为L 的 array纪录这样后 ...

明白了,你这样做还真是很巧妙。赞一下!
回复

使用道具 举报

无效楼层,该帖已经被删除
🔗
 楼主| 池大侠 2015-4-7 01:56:24 | 只看该作者
全局:
refurbish 发表于 2015-4-6 16:24
就是看了,才觉得和你这个题目没啥关系。因为bigtable涉及到分布式存储,不只是文件存储,而且又要保证一 ...

嗯那个是hdfs的基础。。我也看过。。可是这题主要是感觉很底层。。。一直在讨论怎么取文件 存文件。。 然后文件大小。。 和平时准备的完全没什么关系。。。   
手足无措。。 大哥也很无奈。。
回复

使用道具 举报

🔗
 楼主| 池大侠 2015-4-7 01:58:36 | 只看该作者
全局:
refurbish 发表于 2015-4-6 16:09
明白了,你这样做还真是很巧妙。赞一下!

碰到烙印我觉得还是最好直接拿最优,我怕被整。因为如果先用count肯定会被follow 一堆问题。 思想虽然简单但是代码量我基本是写满再擦了半版。 满多小细节要考虑的。
回复

使用道具 举报

🔗
refurbish 2015-4-7 02:10:23 | 只看该作者
全局:
池大侠 发表于 2015-4-7 01:58
碰到烙印我觉得还是最好直接拿最优,我怕被整。因为如果先用count肯定会被follow 一堆问题。 思想虽然简 ...

哈哈。老印有没有问选择L的策略是什么?
回复

使用道具 举报

🔗
 楼主| 池大侠 2015-4-7 02:49:23 | 只看该作者
全局:
refurbish 发表于 2015-4-6 17:10
哈哈。老印有没有问选择L的策略是什么?

我自己补充的。。。 我怕他问所以我说了一下。。 他主要还是挑一些multi thread的来follow up. 保证得到的L atomic
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表