一亩三分地论坛

 找回密码
 获取更多干货,去instant注册!

扫码关注一亩三分地公众号
查看: 1316|回复: 20
收起左侧

这道Uber题目怎么做。。

[复制链接] |试试Instant~ |关注本帖
yzl232 发表于 2014-10-8 07:30:33 | 显示全部楼层 |阅读模式

2014(10-12月) 码农类 硕士 全职@uber - 内推 - 在线笔试 |Other

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干货,去instant注册!

x
四点问的比较细。。
-google 1point3acres
We would like build a location search service that predicts where a client
should be picked up and and dropped off. This feature will be used as a
means of providing suggested pickup and dropoff locations when a user opens
the Uber app.

This service will have access to a client’s trip history (below you’ll
find a week’s worth of trip data for a frequent Uber rider). The only
signals you’ll have are the user’s request location location and the
current date time. Please build a service using Python and Flask that does
the following:

This service should support queries to this endpoint: . 1point 3acres 璁哄潧
/predict?request_lat=XXX&request_lng=YYY

The response should should appear as:
{
    pickup_suggestions: [
        {lat: xxx, lng: yyy},.鏈枃鍘熷垱鑷1point3acres璁哄潧
        {lat: xxx, lng: yyy},
        {lat: xxx, lng: yyy}],
    dropoff_suggestions: [ 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
        {lat: xxx, lng: yyy},
        {lat: xxx, lng: yyy},
        {lat: xxx, lng: yyy}],
}

Approximate Time to Spend: 2 - 3 hours

. visit 1point3acres.com for more.
Please provide a detailed written response to the following questions:
1.    What type of data pipeline would you set up to have this in production
? Would this be an offline or online model? Should this be a real time
service?. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
2.    If the amount of data generated increases by 10x every month, what
architectural changes will this service need.
3.    What other features would you add if you had more time?
4.    What other kind of data would you collect to make this feature more
awesome? How feasible is it to collect this kind of data?. Waral 鍗氬鏈夋洿澶氭枃绔,




. From 1point 3acres bbs



.鐣欏璁哄潧-涓浜-涓夊垎鍦
SAMPLE TRIP DATA - COMMA DELIMITED. from: 1point3acres.com/bbs

user_id,pickup_lat,pickup_lng,dropoff_lat,dropoff_lng,date
1,37.776416793,-122.423856811,37.7615133871,-122.423856811,2014-07-14 09:28:
31
1,37.7616990573,-122.42571153,37.7612015169,-122.42571153,2014-07-14 19:34:
24
1,37.7611402196,-122.412709001,37.7763094617,-122.412709001,2014-07-14 20:42
:19
1,37.7767692789,-122.42409949,37.7616008576,-122.42409949,2014-07-15 09:19:
34
1,37.7618945669,-122.425924762,37.7766056689,-122.425924762,2014-07-15 18:57
:21
1,37.7767476068,-122.42417894,37.7614807852,-122.42417894,2014-07-16 10:02:
42
1,37.7616566802,-122.425564555,37.761253855,-122.425564555,2014-07-16 19:07:
35
1,37.7613229085,-122.412467186,37.7763295668,-122.412467186,2014-07-16 20:30
:47
1,37.7766565273,-122.424115883,37.7618472454,-122.424115883,2014-07-17 09:10
:22
1,37.7614437122,-122.425709961,37.7901029418,-122.425709961,2014-07-17 18:13-google 1point3acres
:28
1,37.7882445102,-122.402835245,37.7767293626,-122.402835245,2014-07-17 22:28 鏉ユ簮涓浜.涓夊垎鍦拌鍧.
:42
1,37.7619131122,-122.425695517,37.7881255674,-122.425695517,2014-07-18 17:43
:20
1,37.7766360972,-122.423977135,37.7610424549,-122.423977135,2014-07-19 07:39. 鍥磋鎴戜滑@1point 3 acres
:29. Waral 鍗氬鏈夋洿澶氭枃绔,
1,37.7609793058,-122.412496383,37.7767517246,-122.412496383,2014-07-19 09:02. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
:11
1,37.7764699018,-122.424185969,37.7880167943,-122.424185969,2014-07-19 19:07
:17. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷


shinichish 发表于 2014-10-8 08:27:48 | 显示全部楼层
楼主。。给跪了。看来uber据我是应该的。。
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 08:46:46 | 显示全部楼层
shinichish 发表于 2014-10-8 08:27. 1point 3acres 璁哄潧
楼主。。给跪了。看来uber据我是应该的。。
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
楼主半路出家学得CS。觉得难啊。。。
回复 支持 反对

使用道具 举报

choutiy 发表于 2014-10-8 08:59:43 | 显示全部楼层
我也收到了这个题目,顶起来,希望能有人一起讨论
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 09:06:39 | 显示全部楼层
choutiy 发表于 2014-10-8 08:59. 1point 3acres 璁哄潧
我也收到了这个题目,顶起来,希望能有人一起讨论


然后一堆记录,得出预测的结果。 我目前打算
用machine learning 的 k-means cluster取中心点怎么样。?。。

然后,这4个问题不会答。。  

Please provide a detailed written response to the following questions:
1.    What type of data pipeline would you set up to have this in production
? Would this be an offline or online model? Should this be a real time. visit 1point3acres.com for more.
service?
2.    If the amount of data generated increases by 10x every month, what
architectural changes will this service need.
3.    What other features would you add if you had more time?
4.    What other kind of data would you collect to make this feature more
awesome? How feasible is it to collect this kind of data?
回复 支持 反对

使用道具 举报

旋转时空 发表于 2014-10-8 09:31:17 | 显示全部楼层
这是data scientist的题目还是sde的题目呀。。
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 09:34:22 | 显示全部楼层
旋转时空 发表于 2014-10-8 09:31
这是data scientist的题目还是sde的题目呀。。

SDE的。。。
回复 支持 反对

使用道具 举报

TonyJang 发表于 2014-10-8 09:39:51 | 显示全部楼层
uber给几天啊?牛逼啊,不愧是pre-IPO的,他家其实不缺人,bar很高的
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 09:42:58 | 显示全部楼层
TonyJang 发表于 2014-10-8 09:39
uber给几天啊?牛逼啊,不愧是pre-IPO的,他家其实不缺人,bar很高的

原来如此。 7天时间。 其实还好。 就是楼主水平不够, 不会回答那四个扩展的问题。
回复 支持 反对

使用道具 举报

hitchpy 发表于 2014-10-8 10:45:08 | 显示全部楼层
对这个flask不熟,不过他问题是什么意思呢,是说数据会快速增长?不过如果是personalization的话backend的数据库应该是可以轻易的扩展的吧,只要有个index,谁的数据在哪个服务器的数据库。
是真的就是显示lat_long这样么?应该可以显示地方名字更加靠谱吧,一个扩展可以是融入traffic condition?显示估计到各个目的地的时间。就像google导航那种。

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

旋转时空 发表于 2014-10-8 10:53:40 | 显示全部楼层

看起来很DS的样子。。. Waral 鍗氬鏈夋洿澶氭枃绔,
其实没看懂题目。。
the only signals you’ll have are the user’s request location是指用户一打开uber当前的定位吗?
既然有定位为啥还要suggest pickup location...
如果不是current location的话,other data可以考虑定位当前location。。因为如果客户之前history老在sf活动,现在到ny了,预测结果肯定不一样,所以用bayesian基于准确位置进行预测。

数据过多的话,我常常看见大家说hash table什么的。。其实我不懂,就那么一提~LZ可以考虑看看?或者先对data进行处理,group一下,如果某条路线重复很多,或是相似的很多,可以在预测的时候加大纸条线路的权重。。。这是我想法。

other feature我觉得可以考虑计算一下每个pickup location可能的等待时间之类的?好让顾客快点打到车。。

other data我觉得还可以把整个region里uber的数据库用上,就是说不只是这个用户的history,是这整个地区里所有用uber的人的history。。这么想是因为一个region里总有些地方很popular。。。在饭点的时候XXX饭点可能极有可能被造访。。xxx景点在xxx季节request很高之类的~

以上都是我瞎说的。。LZ看看就算了。。我不是学CS的。。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 11:08:03 | 显示全部楼层
旋转时空 发表于 2014-10-8 10:53. visit 1point3acres.com for more.
看起来很DS的样子。。
其实没看懂题目。。
the only signals you’ll have are the user’s request lo ...

很有帮助!感谢!!
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 11:09:09 | 显示全部楼层
hitchpy 发表于 2014-10-8 10:45
对这个flask不熟,不过他问题是什么意思呢,是说数据会快速增长?不过如果是personalization的话backend的 ...

谢谢你的回答。 这个flask只不过是用来开发web的python框架而已。。没大关系。
你的几个答案很有启发!!
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-8 11:13:19 | 显示全部楼层
旋转时空 发表于 2014-10-8 10:53
看起来很DS的样子。。
其实没看懂题目。。. From 1point 3acres bbs
the only signals you’ll have are the user’s request lo ...

你的回答越看越有道理!赞!. more info on 1point3acres.com
有定位为啥还要suggest pickup location。 哈哈哈哈。 说的好!
回复 支持 反对

使用道具 举报

chasedream 发表于 2014-10-8 21:48:50 | 显示全部楼层
太牛,深深的膜拜!~~~~
回复 支持 反对

使用道具 举报

wzy930712 发表于 2014-10-8 22:38:31 | 显示全部楼层
yzl232 发表于 2014-10-8 11:13
你的回答越看越有道理!赞!
有定位为啥还要suggest pickup location。 哈哈哈哈。 说的好!

用户打开app时的location显然不一定是他真正要pick-up和drop-off的location,显然是你的testing input,还有k-means肯定不work,你很难找到一个distance function把spatial和temporal的信息联系起来,单纯的把他们看做一个feature dimension肯定是不对的

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

chuck1212 发表于 2014-10-8 23:29:55 | 显示全部楼层
LZ可以参考一下Uber网站上面的一个blog post,是讲怎么预测Rider Destination的,用的是Bayesian的方法。

http://blog.uber.com/passenger-destinations

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-9 00:02:25 | 显示全部楼层
chuck1212 发表于 2014-10-8 23:29. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
LZ可以参考一下Uber网站上面的一个blog post,是讲怎么预测Rider Destination的,用的是Bayesian的方法。
...

真好!!!  原来UBER网站有答案。。
回复 支持 反对

使用道具 举报

 楼主| yzl232 发表于 2014-10-9 00:05:44 | 显示全部楼层
旋转时空 发表于 2014-10-8 10:53. visit 1point3acres.com for more.
看起来很DS的样子。。
其实没看懂题目。。
the only signals you’ll have are the user’s request lo ...

谢谢!! 官方的做法也是 bayesian
回复 支持 反对

使用道具 举报

本版积分规则

请点这里访问我们的新网站:一亩三分地Instant.

Instant搜索更强大,不扣积分,内容组织的更好更整洁!目前仍在beta版本,努力完善中!反馈请点这里

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明 ( 沪ICP备11015994号 )

custom counter

GMT+8, 2016-12-3 20:03

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表