我是如何肉身翻墙,从国内直接来美国工作的?

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
查看: 7791|回复: 22
收起左侧

[统计生统] 统计类工作technical interview 刷题系列 - Mixed model

[复制链接] |试试Instant~ |关注本帖
我的人缘6
小K 发表于 2014-1-10 11:31:24 | 显示全部楼层 |阅读模式
  此人很可信:
 
100% (8) 【我投】
  此人瞎逼逼:
 
0% (0) 【我投】

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
什么公司会有统计technical interview我就不再重复了,说了无数次了。. 留学申请论坛-一亩三分地
不同职位要求不同请自己查。

技术细节欢迎纠结指错,省得我面试的时候说错!!先感谢!!

先写下我记得的问题,随机补充答案
======================================================================================.留学论坛-一亩-三分地
why mixed model?.留学论坛-一亩-三分地

linear regression model 需要每个y given X 剩余error term是彼此独立的, 如果这部分error不能保证独立,就需要额外去model


如果没有 missing data, observation is complete and balanced, 可以Multivariate ANOVA, (response is a matrix instead of vector) 但是现实中少用。。
另外当然 MANOVA only for categorical predictors.

missing completely at random可以用mixed model利用missing data剩余部分的一些信息,所以较优

missing value imputation 我只知道KNN,还能怎么做?

. more info on 1point3acres
方程就不敲了。
-------------------------------.留学论坛-一亩-三分地
两大类的写法:
1. random coefficient model: Random vs. Fixed effect, when to use which?
如果effect 是population 里面一个随便sample,你希望infer to general case, then random, 例子是品茶什么东西的味道如何,做实验的人是随机选取的,最终希望infer到一般人的口味,所以是random
如果总共也就那么几个选择,比如treatment effect 肯定是fixed.本文原创自1point3acres论坛

TBD
random intercept
random intercept, random slope model


2. covariance pattern model: 就是unstructured, compound  symmetry, AR(1) 之类,model error term 矩阵的样子,要研究数据性质决定,fit的话看LR(?)
-------------------------------
Model fit , 点估计:get MLE for fixed effects, report var for random effect
predicted values are based on the above.
.留学论坛-一亩-三分地
ML -> under estimate variance
REML -> unbiased variance , even tho coefficients dont change.

REML 跟ML 到底哪里不一样?(........TBD).本文原创自1point3acres论坛

-------------------------------
get MLE: EM algorithm, Newton Ralphson, 大意是在一个点泰勒展开,E 估计一个点,然后M maximize logLik. 其实就是带入泰勒展开式求下一个点,直到收敛。Hessian初始值是二次导数的期望
. 1point 3acres 论坛
-------------------------------
假设检验:linear contrast 好说

-------------------------------
model selection: LR, AIC, BIC to penalize additional parameters, +2q or +2q/log(n)的区别,一个提供最终model参数的upper bound, 1 get lower lower. final model can lie n between. 这些数字都越小越好。given blablabla... 当然不是nested model不要乱用LR

-------------------------------
diagnostics: normal plot and residuals. 牛人云集,一亩三分地
remedy?? TBD. more info on 1point3acres


评分

3

查看全部评分


上一篇:Duke 统计master新项目
下一篇:说说招国际生的数学summer REU(申请经验以及研究体会)
我的人缘6
 楼主| 小K 发表于 2014-1-10 16:35:37 | 显示全部楼层
  此人很可信:
 
100% (8) 【我投】
  此人瞎逼逼:
 
0% (0) 【我投】
是要做系列。. Waral 博客有更多文章,
-google 1point3acres
next topic is linear models,

争取说清楚what and why. How 反正面试时候也难以考察,并且假定从前做过一点,知道what and why 之后,search怎么做也还挺快的。

why am I doing this? 因为我相信试图给别人解释,是自己掌握内容最好的办法。
如果我有说的不清楚的地方,欢迎提问,我争取能说清楚。
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-11 05:53:17 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
本帖最后由 wwrechard 于 2014-1-11 10:28 编辑

Missing value imputation不是一般用MICE(multiple imputation via chain equations)么?另外REML和ML的区别(random effect和fixed effect的区别)在Bayes里面超级直观,后者是一般的Model,前者是hierarchical model。另外我不理解你说的mixed model是什么,是mixture model吗?。如果是Mixture,据我的理解,用mixture model来model的好处是heavy tail. 另外Diagnostic里面还有很多可以做吧,除了qqplot和box-cox transform,还可以看看leverage,leave one (predictor) out plot,residuals vs fitted, 以及Cook's distance.
回复 支持 反对

使用道具 举报

我的人缘6
 楼主| 小K 发表于 2014-1-11 11:23:23 | 显示全部楼层
  此人很可信:
 
100% (8) 【我投】
  此人瞎逼逼:
 
0% (0) 【我投】
mixed != mixture...
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-11 12:24:13 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
google了一下发现原来mixed model就是同时有fixed effect和random effect的model啊。。。囧。。。哎,反正在Bayes里,random effect这个东西非常trivial...
回复 支持 反对

使用道具 举报

我的人缘6
 楼主| 小K 发表于 2014-1-11 12:26:13 | 显示全部楼层
  此人很可信:
 
100% (8) 【我投】
  此人瞎逼逼:
 
0% (0) 【我投】
我的bayesian学的跟没学一样,求解释为什么random effect in bayesian

btw 1 楼说EM是未必的--只有复杂到无法直接解才需要EM
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-11 12:45:08 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
举个例子,你在调查一个手术的执行结果。整个实验在五家不同的医院做(都有很多case),还有其他很多因素比如用了不同的药品。简单考虑一个logistic模型,y = g^{-1}(alpha + X beta). alpha是医院的影响,其中下标i指代这个case在哪个医院做。Bayes hierarchical modeling就是在这5个alpha上在放一组hyper-parameter, alpha_0, sigma_0来model 不同医院的相似性和相异性,即我们假设 alpha ~ N(alpha_0, sigma_0^2)。所以整个model最后是这样的 (包括prior)
. more info on 1point3acres
y = g^{-1}(alpha + X beta)
alpha ~ N(alpha_0, sigma_0), i =1,2,3,4,5
alpha_0 ~ prior(alpha_0)
sigma_0 ~ prior(sigma_0)
beta ~ prior(beta)
. visit 1point3acres for more.
然后用Gibbs sampling 来抽后验就可以了,一般hierarchical model的Gibbs sampler都比较好写出来。
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-11 12:53:56 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
另外用Bayes来做这种hierachical modeling的好处在于有JAGS这种软件的存在。用JAGS的话你都不需要自己求Posterior,只要你能够把model像我上一楼那样从上往下写出来,他就能自己算posterior (用slice sampling)。因为JAGS本身是用C++写的,而且在R里面有直接对应的package,实际应用也还是挺方便的。
回复 支持 反对

使用道具 举报

我的人缘6
 楼主| 小K 发表于 2014-1-11 13:06:06 | 显示全部楼层
  此人很可信:
 
100% (8) 【我投】
  此人瞎逼逼:
 
0% (0) 【我投】
感谢~~~~~~继续求解释,gibbs sampler工作原理,适用情况. 牛人云集,一亩三分地
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-11 13:47:51 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
Gibbs sampler说来就话长了。简单来说Bayes的目标是为了从后验分布里面抽样,然后通过求后验分布的一些descriptive statistics来做Inference。但是很多情况下后验分布即使可以显式写出,但也没有办法直接sample。于是大家就只能用MCMC来抽样。而Gibbs sampler就是一种特殊的MCMC。对于一个full likelihood,虽然有时候joint sample很难,但是如果只看一个parameter同时condiiton on其他parameter当前的值而得到的conditional distribution往往是很简单的。举个例子

p(x, y) \propto e^{-yx^2/2-y}y^2
这个joint distribution看起来就很难直接sample,但是你可以写出两个conditional distribution,
.1point3acres网
x|y ~ N(0, 1/y)
y|x ~ Gamma(3, x^2/2+1)
而这两个分布都是很好sample的。所以Gibbs sampler的大致想法就是,我从给定的一组初值(x_0, y_0)出发,逐步迭代抽样: x_1 ~ p(x|y_0), y_1 ~ p(y|x_1), x_2 ~ p(x|y_1)...
最后你可以证明这个markov chain是能以概率1在有限步内converge到你的目标distribution的,即从某步开始 (x_n, y_n) ~ e^{-yx^2/2}y^2, 从而通过这种方法实现Joint sampling.

P.S: 其实这里的这个joint distribution先把x积分掉会很简单,所以只是拿来做一个例子而已。另外这里x的marginal应该是一个t distribution.
回复 支持 反对

使用道具 举报

我的人缘0
觉即不随 发表于 2014-1-12 04:25:45 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
十分感谢 wwrechard 同学帮忙复习Bayesian!

About REML and ML:
The biggest difference between the two lies in generalized linear mixed model estimate.  

ML: The estimate that maximizes the log-likelihood function. For example, to estimate the fixed and random effect in a linear mixed model, we pud down the log-likelihood function which involves the fixed effects and variance components, and then find the maximum.  . From 1point 3acres bbs
MLE is asymptotically unbiased.  But in a mixed effect model, the estimate for variance components is biased.

REML: Targeting at getting an unbiased estimate for the variance components in the mixed model.  The algorithm would fit the fixed part of th e model first and then use the residuals to fit the log-likelihood on the variance components.  

In R and SAS, we always have both options.  The default in SAS proc glmmix, the default is REML.
回复 支持 反对

使用道具 举报

我的人缘0
觉即不随 发表于 2014-1-12 04:28:08 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
还有,LZ,你的求MLE的算法部分,EM和Newton method,后面的解释怎么是两个方法掺杂着来的呢。。。?
回复 支持 反对

使用道具 举报

我的人缘6
 楼主| 小K 发表于 2014-1-12 04:56:38 | 显示全部楼层
  此人很可信:
 
100% (8) 【我投】
  此人瞎逼逼:
 
0% (0) 【我投】

感谢讨论!
应该是怎样的呢?这块我的确理解的很差。
回复 支持 反对

使用道具 举报

我的人缘0
觉即不随 发表于 2014-1-12 05:21:44 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
本帖最后由 觉即不随 于 2014-1-12 05:25 编辑

EM algorithm: The algorithm relies on complete data computation.  A latent data model is assumed.. visit 1point3acres for more.
E step: Given the observations, we can calculate the expectation of the latent data.  Thus gives us a function of the parameters, given the observations.
M step: maximize the function we got from E step.
Repeating the two steps, until the targeting log likelihood barely changes, or the parameters barely changes.

.本文原创自1point3acres论坛EM algorithm is guaranteed to ascend over iterations.


Newton's method:
1) Approximate the target function with a second order Taylor expansion at the current iteration point.  This will involve the score function, and an observed Fisher information matrix (negative of observed Hessian matrix).
2) Take first order derivative with this approximation. .留学论坛-一亩-三分地
3) Equate the first order derivative with 0, and solve for the update of the parameters.  

Newton method is sometimes un-stable, i.e. it does not guarantee the ascend of the targeting function.  The reason is that in the 3rd step, the inversion of the observed Hessian matrix is required.  But in cases that the targeting function is not convex, the observed Fisher information matrix might not be positive definite, which causes numerical problem when taking inverse.

艾玛。。。写这么长。。。lz,我很啰嗦。。。
回复 支持 反对

使用道具 举报

我的人缘0
觉即不随 发表于 2014-1-12 05:47:17 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
lz别嫌弃,因为我在国内没学过统计,所以涉及到专业问题还是用英文说快一点,也准确点~
回复 支持 反对

使用道具 举报

我的人缘0
hitchpy 发表于 2014-1-12 06:04:04 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
太感激了!!!我觉得最需要的就是这方面的信息,而前辈们的经验让后辈受益匪浅!!
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-12 06:11:28 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
本帖最后由 wwrechard 于 2014-1-14 07:44 编辑

不太同意关于牛顿法的drawback那个部分的描述。【如果涉及到convex的话,EM保证每步都增大的条件也是目标log likehood必须是convex的,因为证明那一步需要Jensen's inequality。另外,<--讲错了。。。】EM推广来说是一种特殊的MM算法,而Newton法在很多情况下也能划归到MM算法(局部二次近似,且二次函数小于原函数),convex是保证MM算法收敛必须的条件。另外,据我自己的经验来说,牛顿法收敛是很快的(不单单是统计问题),因为是二次收敛的速度,代价是存储太大。关于Hessian matrix不正定的问题,一般数值上有很多解决办法,对应到统计里面比如ridge regression就是一种。
回复 支持 反对

使用道具 举报

我的人缘0
wwrechard 发表于 2014-1-12 06:28:49 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
以前没太关注过mixed model的问题,这次乘机去看了Laird 1982和Jennrich 1986的paper。Laird 1982讨论的是repeated measure model 如何用 EM找MLE,方法很简单,M这一步就是condition on residual以及random effects (对应的sufficient statistics)来求coefficient以及covariance的极值点。而E step就是根据这些极值点带回去求得residual和random effects,再算出需要的sufficient statistics的期望。Jennrich 1986的paper,讨论了更广泛的model,response的covariance matrix有各种特殊的形式,甚至可以是unstructured (注意无论是random effects model, missing data, 还是factor model都可以求出y的marginal distribution,看其covariance matrix都一般有特殊形式)。Jennrich考虑的是对于y marginal distribution如何用牛顿法来最大化,过程就是14楼 觉即不随 童鞋描述的牛顿法。注意Hessian matrix和fisher scoring的区别是后者用了前者的期望。
回复 支持 反对

使用道具 举报

我的人缘0
superddt 发表于 2014-1-14 04:29:54 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
EM的优点是,如果可以巧妙的地构造一个latent variable,使得我们已有的variable 与latent variable 放在一起就可以构成一个much simpler的情况。从而简化或者转化一个估计的问题。
如果构造的latent variable没能够得到更简单的问题,那EM的优点就不明显了。
. Waral 博客有更多文章,Newton method有很多变型,modified newton,quasi-newton之类的方法或者来解决 indefinite hessian或者limited memory的问题。
如果model是exponential family的,那么fisher scoring和直接用hessian matrix的牛顿法是等价的。
回复 支持 反对

使用道具 举报

我的人缘0
demonhunter 发表于 2014-1-19 13:36:21 | 显示全部楼层
  此人很可信:
 
0% (暂未有人投票) 【我投】
  此人瞎逼逼:
 
0% (暂未有人投票) 【我投】
本帖最后由 demonhunter 于 2014-1-19 13:49 编辑

谢K大妈的干货。
其实因为mixed effect model的model assumption中random effect是有distribution的所以很自然就可以plug in到Bayesian中,因为这等于给定了random effect的prior。之后如果想研究random effect只需要研究它的posterior就可以了。
. Waral 博客有更多文章,
哥大的教授Gelman写的:. 1point 3acres 论坛
Data Analysis Using Regression and Multilevel/Hierarchical Models

这本书介绍的很详细
回复 支持 反对

使用道具 举报

游客
请先登录

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-5-28 18:26

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表