《数据科学面试40+真题讲解》,K神本年度最后一次开课


一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推你去多家公司面试
Airbnb 数据科学职位
in analytics and inference
天天打游戏、照样领工资,
你要不要来?
把贵司招聘信息放这里
查看: 1714|回复: 1
收起左侧

google SETI 电面跪经

[复制链接] |试试Instant~ |关注本帖
shuaishuaima 发表于 2016-10-29 05:25:08 | 显示全部楼层 |阅读模式

2016(10-12月) 码农类 硕士 全职@Google - 网上海投 - 技术电面 |Otherfresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
一小时前刚面的,看地里没有这题,就放上来了,供其他人参考, google SETI组直接上来问问题,就一道
.鏈枃鍘熷垱鑷1point3acres璁哄潧
Given a page of website, count the number of unique reachable pages.

例子: '+'代表算   '-'代表不算
+google.com
    /link to
+google.com/a
   /link to
+goole.com/b
  /link to -------------------/link to ----------------------------link to
-external.com             +news.google.com/             -newsgoogle.com/. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴



给了一个api, already implemented
vector<string> parseLink(const string &url). 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
e.g. parseLink(''google.com/b")  return {"external.com", "new.google.com", "newsgoogle.com"}. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

implement this one
//e.g. crawl("google.com") return 4
int crawl(const string &url);

基本上对于给的url, 用parseLink找到所有的链接, 在返回的所有的链接里逐个跟url比较,看看算不算合法的链接, 然后再recursive call crawl(”链接“)这个function, 注意要求是unique的. from: 1point3acres.com/bbs

一开始想用trie找到链接里的prefix跟url相同的,然后他就给我举了+news.google.com/ 和 -newsgoogle.com/ 的例子, 见我实现起来比较困难,又给我一个已经实现的api

bool sameSite(const string &url1, const string &url2);.鐣欏璁哄潧-涓浜-涓夊垎鍦
//return true if the two URLs are part of the same site..鏈枃鍘熷垱鑷1point3acres璁哄潧
// e.g. sameSite("google.com", "google.com/a") return true

然后问那些test case, cyclic webpages要包含, 例如:faceboo.com --> facebook.com/login  --> facebook.com

最后我问了1个问题:
这个组做的东西主要是内部使用还是外部使用?
跟地里看到的帖子差不多,基本上都是内部使用

估计跪掉了,发出来让其他小伙伴参考吧

本帖被以下淘专辑推荐:

小A要当码农 发表于 2016-11-21 09:47:05 | 显示全部楼层
没太懂这道题呀。。。 为啥external.com这个URL不能算呢? 以及,判断重复的具体条件是啥呀?
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-11-20 03:55

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表