一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 485|回复: 1
收起左侧

google SETI 电面跪经

[复制链接] |试试Instant~ |关注本帖
shuaishuaima 发表于 2016-10-29 05:25:08 | 显示全部楼层 |阅读模式

2016(10-12月) 码农类 硕士 全职@Google - 网上海投 - 技术电面 |Otherfresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
一小时前刚面的,看地里没有这题,就放上来了,供其他人参考, google SETI组直接上来问问题,就一道
. 鍥磋鎴戜滑@1point 3 acres
Given a page of website, count the number of unique reachable pages.

例子: '+'代表算   '-'代表不算
+google.com.鐣欏璁哄潧-涓浜-涓夊垎鍦
    /link to
+google.com/a
   /link to
+goole.com/b
  /link to -------------------/link to ----------------------------link to.鏈枃鍘熷垱鑷1point3acres璁哄潧
-external.com             +news.google.com/             -newsgoogle.com/

.1point3acres缃

给了一个api, already implemented. more info on 1point3acres.com
vector<string> parseLink(const string &url)
e.g. parseLink(''google.com/b")  return {"external.com", "new.google.com", "newsgoogle.com"}

implement this one
//e.g. crawl("google.com") return 4
int crawl(const string &url);

基本上对于给的url, 用parseLink找到所有的链接, 在返回的所有的链接里逐个跟url比较,看看算不算合法的链接, 然后再recursive call crawl(”链接“)这个function, 注意要求是unique的

一开始想用trie找到链接里的prefix跟url相同的,然后他就给我举了+news.google.com/ 和 -newsgoogle.com/ 的例子, 见我实现起来比较困难,又给我一个已经实现的api

bool sameSite(const string &url1, const string &url2);
//return true if the two URLs are part of the same site.-google 1point3acres
// e.g. sameSite("google.com", "google.com/a") return true

然后问那些test case, cyclic webpages要包含, 例如:faceboo.com --> facebook.com/login  --> facebook.com .鏈枃鍘熷垱鑷1point3acres璁哄潧

最后我问了1个问题:. 1point3acres.com/bbs
这个组做的东西主要是内部使用还是外部使用?
跟地里看到的帖子差不多,基本上都是内部使用
鏉ユ簮涓浜.涓夊垎鍦拌鍧.
估计跪掉了,发出来让其他小伙伴参考吧

本帖被以下淘专辑推荐:

小A要当码农 发表于 2016-11-21 09:47:05 | 显示全部楼层
没太懂这道题呀。。。 为啥external.com这个URL不能算呢? 以及,判断重复的具体条件是啥呀?
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-9 10:06

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表