一亩三分地

 找回密码 注册账号

扫描二维码登录本站


Salarytics=Salary Analytics
查询工资数据
系统自动计算每年收入

码农求职神器Triplebyte
不用海投
内推多家公司面试

科技公司如何
用数据分析驱动产品开发
coupon code 250off 立减$250

深入浅出AB Test
从入门到精通
coupon code 250off 立减$250
游戏初创公司招聘工程师、UIUX Designer和游戏策划
坐标湾区
DreamCraft创始团队
招聘游戏开发工程师
查看: 2849|回复: 21
收起左侧

请教一道关于distribution的题

[复制链接] |试试Instant~
我的人缘0

分享帖子到朋友圈
renee17 | 显示全部楼层 |阅读模式
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (14)
 
 
0% (0)    👎

2019(4-6月) 分析|数据科学类 本科 全职@ - 校园招聘会 - 技术电面  | Fail/Rej | fresh grad应届毕业生

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?注册账号

x
想讨论一道题,在面试一家自驾车的公司遇到的。

他们每天monitor车子在外面开遇到事故的数量, 所以是count number,问这个count number 服从什么分布?应该用什么样的test看这个count 有没有变化(变好/变坏)。
游客,本帖隐藏的内容需要积分高于 188 才可浏览,您当前积分为 0。
查看如何攒积分 Click here for more info.
是事故发生的不会很多,小概率事件,要怎么处理?向大牛求教!



评分

参与人数 5大米 +25 收起 理由
whdawn + 10
yu170825tZ + 1 很有用的信息!
兔纸姑娘 + 2 给你点个赞!
xujw07 + 2 给你点个赞!
清道神君 + 10

查看全部评分


上一篇:新鲜亚麻DS面经
下一篇:Viagogo DS OA
我的人缘0
jingbix 2019-8-24 05:04:48 | 显示全部楼层
本楼: 👍   100% (3)
 
 
0% (0)   👎
全局: 👍   81% (1026)
 
 
18% (240)    👎
作为已经工作的Statistician来答一下,

1.首先列出所有可行的模型:poisson, negative binomial
2.介绍不同模型优缺点
3.然后做出结果后把结果比较,如果结果相同就可以得出结论,如果结果不同就要重新考虑模型的assumption

基本上我工作上遇见的问题都是这样一个思路,不在于模型对不对,而在于是否所有可行的方案结果是一样的。

希望有所帮助。

评分

参与人数 3大米 +3 收起 理由
tang529 + 1 赞一个
csla + 1 很有用的信息!
yu170825tZ + 1 很有用的信息!

查看全部评分

回复

使用道具 举报

我的人缘0
boboteatea 2019-8-22 11:24:01 | 显示全部楼层
本楼: 👍   100% (2)
 
 
0% (0)   👎
全局: 👍   100% (42)
 
 
0% (0)    👎
是泊松分布,检验的时候用单侧的cdf。
比如之前的事故是 lambda= 2 per day,现在观察了10天看到了15起事故,
H0: lambda = 20 (按照10天来算)
H1: lambda < 20
就要找P(X<=15) given X~Pois(20). check 1point3acres for more.
这样算出来是0.15651

评分

参与人数 1大米 +2 收起 理由
solv6868 + 2 给你点个赞!

查看全部评分

回复

使用道具 举报

我的人缘0
szhhan 2019-8-23 07:51:14 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   96% (26)
 
 
3% (1)    👎
应该是negative binomial, 不能用poisson 考虑到可能周末出行人数多,包括节假日 和平时出行人数差距比较大,用poisson一个mean太武断了。用negative binomial的话就可以控制在一定范围内的mean了
回复

使用道具 举报

我的人缘0
averageds 2019-8-23 00:34:30 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   77% (144)
 
 
22% (41)    👎
感觉没有标准答案,就看面试官想的是啥。按照楼主的描述,面试官好像比较没有经验。有经验的面试官面这种问题都会按照你的思路先走一遍,因为有很多角度看法。

从practical的角度,我会从poisson入手。

然后可以问问数据和相关因素,比如什么时间,地点会发生,看看会不会有启发。

还不行就引入Extreme Value Theory,但这个我也早就忘光了。。。只记得这个词了。。。

总体上觉得面试官水平要加强。。。哈哈哈。。。

EVT related:
https://www.statisticshowto.data ... value-distribution/
"Extreme Value Distributions
An extreme value distribution is a limiting model for the maximums and minimums of a data set. A limiting distribution simply models how large (or small) your data will probably get. For example, let’s say you wanted to build a levee to protect against storm surges. You can use historical storm data to create a limiting distribution that tells you how large the waves are likely to get and when the levee is probably going to fail. It may be helpful to think of the limit as a failure point — a point that, if exceeded, some kind of failure or end-of-life event will happen.

The basic idea is that three types of extreme value distributions (EVD Types I,II, and II) can model the extremes from any set of data, as long as the distribution is “well-behaved” (Gumbel, 1958), with the following characteristics:

Is a continuous probability distribution. A continuous distribution has a range of values that are infinite, and therefore uncountable. For example, time is infinite: you could count from 0 seconds to a billion seconds…a trillion seconds…and so on, forever.
Has an inverse. An inverse distribution is the distribution of the reciprocal of a random variable.
Is made up of independent, identically distributed (IID) random variables. Identically Distributed means that there are no overall trends–the distribution doesn’t fluctuate and all items in the sample are taken from the same probability distribution. It’s basically the same thing as a random sample."
回复

使用道具 举报

我的人缘0
jane522 2019-8-22 10:57:25 | 显示全部楼层
本楼: 👍   100% (1)
 
 
0% (0)   👎
全局: 👍   88% (15)
 
 
11% (2)    👎
感觉是泊松分布,lambda=# per day,有了新数据即新的# per day后做统计检验,假设lambda没变,求新的# per day发生的概率,如果概率小于0.05即推翻假设就是lambda变了
回复

使用道具 举报

我的人缘0
 楼主| renee17 2019-8-22 13:05:52 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (14)
 
 
0% (0)    👎
本帖最后由 renee17 于 2019-8-22 13:08 编辑

谢谢大家。我当时说了是柏松分布,但面试的人说很close,但不是。我就说那我就真的不知道了。
对于test,我先问是不是chi square,他说不是。然后我说是likelihood ratio test,他说差不多,让讲讲细节。
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   93% (113)
 
 
6% (8)    👎
可能是negative binomial…来relax Poisson的mean=variance的要求
回复

使用道具 举报

我的人缘0
Janette 2019-8-23 00:50:20 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (74)
 
 
0% (0)    👎
liu1p3 发表于 2019-8-22 06:21
可能是negative binomial…来relax Poisson的mean=variance的要求

我也觉着是NB来着,Poisson的要求要严苛了,很少见到真实世界的数据有符合的。
回复

使用道具 举报

我的人缘0
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   93% (113)
 
 
6% (8)    👎
Janette 发表于 2019/08/23 00:50:20


我也觉着是NB来着,Poisson的要求要严苛了,很少见到真实世界的数据有符合的。

或者是zero inflated Poisson…又看了眼题,说是有很多0
回复

使用道具 举报

我的人缘0
xujw07 2019-8-23 03:00:12 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (9)
 
 
0% (0)    👎
考到这种肯定跪了 求大神讨论
回复

使用道具 举报

我的人缘0
jane522 2019-8-23 06:02:09 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   88% (15)
 
 
11% (2)    👎
本帖最后由 jane522 于 2019-8-23 06:23 编辑

楼主有反问面试官为什么小概率不能用poisson吗
不可能是chi square和likelihood ratio啊。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法 - 不要多加空格: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

手机版||一亩三分地

GMT+8, 2019-9-22 14:28

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表