San Jose各个房价 <1.5m 区域买房总结

一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投
内推多家公司面试
坐标湾区
Games Startup
招聘游戏开发工程师
游戏初创公司招聘工程师、UIUX Designer和游戏策划
把贵司招聘信息放这里
查看: 2472|回复: 14
收起左侧

请教两道脸书data scientist的product实验设计题目

[复制链接] |试试Instant~ |关注本帖
newape 发表于 2017-7-6 07:31:10 | 显示全部楼层 |阅读模式

2017(7-9月) 分析|数据科学类 博士 全职@Facebook - 内推 - 技术电面  | Other | 其他

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
(帮别人发的)

知道地里很多同学在准备product题目,其中实验设计经常出现,在这里想向大家请教两道题目,谢谢!
. 留学申请论坛-一亩三分地
第一题:研究如果向用户推送close friends有update的notification,用户行为的变化
http://www.1point3acres.com/bbs/thread-273654-1-1.html

. 1point3acres
第二题:研究父母加入FB对用户行为的影响
http://www.1point3acres.com/bbs/thread-209706-1-1.html
.1point3acres网
我的问题是这两题应该用a/b testing还是cohort analysis?

a/b testing主要用于测试population里在同一时间一个变量对group A和group B的作用,group A和group B要comparable,要randomize。cohort analysis主要是分析population里面一小撮人,强调的是用户前后行为的对比。

a/b testing的问题:对于第一题,如果对愿意接受推送和不愿意的用户进行a/b testing是有bias的,愿意接收推送的人可能本来就很关心自己的close friends,所以有了推送之后,他们的活动会增加,这两个population就不是random的。对于第二题,如果直接比较有父母和没有父母的两组,很有可能是在有父母的里面,很多用户本来就不care父母,所以最后比较结果不显著。

Cohort的问题:没办法控制时间变量,可能有外在其他因素影响。

我的想法是,可否用两个cohort来进行前后对比。比如第一题,设置两个cohort,cohort A:接受的A,没接受的B。当cohort B在turn on前后没有显著差异的时候(确认没有外在条件影响),再分析cohort A在turn on前后是否有显著差异(但是感觉还是有点儿问题,比如如果外在事件只影响一个cohort呢)
来源一亩.三分地论坛.

评分

1

查看全部评分

oliviajzma 发表于 2017-8-1 01:58:00 | 显示全部楼层
第二题可以讨论一下吗?我在另外一个贴里面恢复了相同的内容。

我不是学统计的,我学经济的,而且我学习也不太好,所以大家take a grant of salt。
. 一亩-三分-地,独家发布
如果是的话这个题目A/B testing 应该是做不了的。A/B testing只能做experiment data,就是实时randomize control vs experiment然后看metrics。在这个题目里父母加入fb这个事情是自发的,不是像某一个web page有A,B两个版本这么可以简简单单assign给experiment的。换句话说自发性的父母加入fb的user本身可能带有某些特征可能导致user今后behavior的变化,
但是这些特征由于无法control,是没有办法用randomization给撇除的。

我能想到的是把过去的observation data拿来做一个linear regression:. from: 1point3acres

activity = alfa + beta*parents_join(dummy) + other dummies (control of individual heterogeneity).留学论坛-一亩-三分地

左手边是user's activity (可以是一个weighted average of all kinds of metrics to measure activity, i.e. login frequency, average active time, number of posts, number of likes, etc.)

右手边是一个dummy variable, 可以叫它 parents_join, create a time series for dummy, suppose parents joined fb on 2005/1/1, parents_join == 0 before that date, and parents_join ==1 after that date.
右手边还可以加点其他dummy to control for individual differences, such as age, religion, country of origin。 或者不搞零碎的dummy可以索性可以搞一个user_id,更像做一个fixed effect.

看一下结果,如果beta结果是significant而且是正的(say 0.02),那就说明holding constant everything else, users with parents joined fb is associated with 0.02% increase in their activity。反之同理。
. visit 1point3acres for more.
linear regression和a/b testing比较最大的问题就是没有办法得出casual relationship, 但是这个命题决定了不能做a/b testing,所以我觉得搞个linear regression也是还可以的。 来源一亩.三分地论坛.
. visit 1point3acres for more.
补充内容 (2017-8-1 01:42):
不知道说清楚没,这个regression 是一个panel data fixed effect,所以有time and user 两个variable uniquely identify each observation。
回复 支持 1 反对 0

使用道具 举报

iamchrisa 发表于 2017-7-6 10:17:01 | 显示全部楼层
谢谢楼主分享 搬好小板凳等下面的高手回答
回复 支持 反对

使用道具 举报

ElaineAAAAA 发表于 2017-7-7 00:13:23 | 显示全部楼层
同等高手ing
回复 支持 反对

使用道具 举报

ucaksil 发表于 2017-7-7 05:45:26 | 显示全部楼层
同等高手解答~~!
回复 支持 反对

使用道具 举报

XiaonanD 发表于 2017-7-7 06:03:58 | 显示全部楼层
同等高手答疑解惑!
回复 支持 反对

使用道具 举报

zcalbert 发表于 2017-7-7 08:56:12 | 显示全部楼层
小板凳坐等
回复 支持 反对

使用道具 举报

Kevinstat 发表于 2017-7-7 09:07:45 | 显示全部楼层
备好小板凳啦
回复 支持 反对

使用道具 举报

davidxie1 发表于 2017-7-7 11:36:44 | 显示全部楼层
哪位高手给个答案阿?
回复 支持 反对

使用道具 举报

zkftyj0806 发表于 2017-7-7 11:40:36 | 显示全部楼层
同等待答案
回复 支持 反对

使用道具 举报

gennypan1989 发表于 2017-10-30 07:32:47 | 显示全部楼层
oliviajzma 发表于 2017-8-1 01:58
. from: 1point3acres 第二题可以讨论一下吗?我在另外一个贴里面恢复了相同的内容。. more info on 1point3acres
来源一亩.三分地论坛.
我不是学统计的,我学经济的,而且我学习 ...

我觉得搞回归,可能并不切中问题要害。题目问的是causal effect,就是父母加入和用户流失关系。回归,我们能做的就是像你说的描述选取的变量和流失的一些指标的关系,其中有两个问题,一个是你无法知道你是不是把会影响到流失的所有变量都选进去了,第二就是holding other constant的问题,现实情况是很多变量互相之间是有关系的,这会影响到解释父母亲那个dummy(假如有另一个变量是像微信一样关掉对父母现实内容的按钮,那么用了这个的人可能即便有父母为好友,可能也还会继续使用脸书)。
回复 支持 反对

使用道具 举报

gennypan1989 发表于 2017-10-30 08:11:53 | 显示全部楼层
我觉得第一题可以ab testing 愿意接受推送和不愿意的用户确实有bias的,但是并不意味着选择control and test按这个来选。假设在这个feature上线前,尽可能随机选两个组,关键是要决定测量的是什么指标。我觉得可以是engagement相关的,比如对主页上消息的ctr等等。
第二题,我觉得原帖里面的假设检验的回复是个可行办法。另外一个我想到的是类似cohort的思路搞个回归,所有人,加父母之前之后的metric一个作为y,另一个作x,另外一个就是父母这个dummy.
忘更多高手赐教。
回复 支持 反对

使用道具 举报

瓷心娃娃 发表于 2017-11-27 04:22:37 | 显示全部楼层
第一题,如果没有sign up这一步的话,我觉得ab testing 就可以。如果你很关注用户愿不愿意接受notification的话,是不是可以在test 后分析这个feature呢?
如果加了sign up这一步的话,就不是random的了,control组也没法选啊

回复 支持 反对

使用道具 举报

本版积分规则

提醒:发帖可以选择内容隐藏,部分板块支持匿名发帖。请认真读完以下全部说明:

■隐藏内容方法: [hide=200]你想要隐藏的内容比如面经[/hide]
■意思是:用户积分低于200则看不到被隐藏的内容
■可以自行设置积分值,不建议太高(200以上太多人看不到),也不建议太低(那就没必要隐藏了)
■建议只隐藏关键内容,比如具体的面试题目、涉及隐私的信息,大部分内容没必要隐藏。
■微信/QQ/电子邮件等,为防止将来被骚扰甚至人肉,以论坛私信方式发给对方最安全。
■匿名发帖的板块和方法:http://www.1point3acres.com/bbs/thread-405991-1-1.html

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2018-5-27 00:17

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表