传说中的谷歌招聘委员会成员之一,从幕后走出来,教你学系统设计!


一亩三分地论坛

 找回密码
 获取更多干活,快来注册
天天打游戏、照样领工资、还办H1B
这份工作你要不要?
把贵司招聘信息放这里
查看: 1219|回复: 11
收起左侧

请教两道脸书data scientist的product实验设计题目

[复制链接] |试试Instant~ |关注本帖
newape 发表于 2017-7-6 07:31:10 | 显示全部楼层 |阅读模式

2017(7-9月) 分析|数据科学类 博士 全职@Facebook - 内推 - 技术电面 |Other其他

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?获取更多干活,快来注册

x
(帮别人发的)
. 鍥磋鎴戜滑@1point 3 acres
知道地里很多同学在准备product题目,其中实验设计经常出现,在这里想向大家请教两道题目,谢谢!

第一题:研究如果向用户推送close friends有update的notification,用户行为的变化. 鐣欏鐢宠璁哄潧-涓浜╀笁鍒嗗湴
http://www.1point3acres.com/bbs/thread-273654-1-1.html 鏉ユ簮涓浜.涓夊垎鍦拌鍧.


第二题:研究父母加入FB对用户行为的影响
http://www.1point3acres.com/bbs/thread-209706-1-1.html

我的问题是这两题应该用a/b testing还是cohort analysis?

a/b testing主要用于测试population里在同一时间一个变量对group A和group B的作用,group A和group B要comparable,要randomize。cohort analysis主要是分析population里面一小撮人,强调的是用户前后行为的对比。

a/b testing的问题:对于第一题,如果对愿意接受推送和不愿意的用户进行a/b testing是有bias的,愿意接收推送的人可能本来就很关心自己的close friends,所以有了推送之后,他们的活动会增加,这两个population就不是random的。对于第二题,如果直接比较有父母和没有父母的两组,很有可能是在有父母的里面,很多用户本来就不care父母,所以最后比较结果不显著。

Cohort的问题:没办法控制时间变量,可能有外在其他因素影响。

我的想法是,可否用两个cohort来进行前后对比。比如第一题,设置两个cohort,cohort A:接受的A,没接受的B。当cohort B在turn on前后没有显著差异的时候(确认没有外在条件影响),再分析cohort A在turn on前后是否有显著差异(但是感觉还是有点儿问题,比如如果外在事件只影响一个cohort呢)

评分

1

查看全部评分

oliviajzma 发表于 2017-8-1 01:58:00 | 显示全部楼层
第二题可以讨论一下吗?我在另外一个贴里面恢复了相同的内容。. 1point3acres.com/bbs

我不是学统计的,我学经济的,而且我学习也不太好,所以大家take a grant of salt。

如果是的话这个题目A/B testing 应该是做不了的。A/B testing只能做experiment data,就是实时randomize control vs experiment然后看metrics。在这个题目里父母加入fb这个事情是自发的,不是像某一个web page有A,B两个版本这么可以简简单单assign给experiment的。换句话说自发性的父母加入fb的user本身可能带有某些特征可能导致user今后behavior的变化,
但是这些特征由于无法control,是没有办法用randomization给撇除的。

我能想到的是把过去的observation data拿来做一个linear regression:

activity = alfa + beta*parents_join(dummy) + other dummies (control of individual heterogeneity)

左手边是user's activity (可以是一个weighted average of all kinds of metrics to measure activity, i.e. login frequency, average active time, number of posts, number of likes, etc.) . From 1point 3acres bbs
-google 1point3acres
右手边是一个dummy variable, 可以叫它 parents_join, create a time series for dummy, suppose parents joined fb on 2005/1/1, parents_join == 0 before that date, and parents_join ==1 after that date.
右手边还可以加点其他dummy to control for individual differences, such as age, religion, country of origin。 或者不搞零碎的dummy可以索性可以搞一个user_id,更像做一个fixed effect.
. 鍥磋鎴戜滑@1point 3 acres
看一下结果,如果beta结果是significant而且是正的(say 0.02),那就说明holding constant everything else, users with parents joined fb is associated with 0.02% increase in their activity。反之同理。

linear regression和a/b testing比较最大的问题就是没有办法得出casual relationship, 但是这个命题决定了不能做a/b testing,所以我觉得搞个linear regression也是还可以的。. from: 1point3acres.com/bbs

补充内容 (2017-8-1 01:42):
不知道说清楚没,这个regression 是一个panel data fixed effect,所以有time and user 两个variable uniquely identify each observation。
回复 支持 1 反对 0

使用道具 举报

iamchrisa 发表于 2017-7-6 10:17:01 | 显示全部楼层
谢谢楼主分享 搬好小板凳等下面的高手回答
回复 支持 反对

使用道具 举报

ElaineAAAAA 发表于 2017-7-7 00:13:23 | 显示全部楼层
同等高手ing
回复 支持 反对

使用道具 举报

ucaksil 发表于 2017-7-7 05:45:26 | 显示全部楼层
同等高手解答~~!
回复 支持 反对

使用道具 举报

XiaonanD 发表于 2017-7-7 06:03:58 | 显示全部楼层
同等高手答疑解惑!
回复 支持 反对

使用道具 举报

zcalbert 发表于 2017-7-7 08:56:12 | 显示全部楼层
小板凳坐等
回复 支持 反对

使用道具 举报

Kevinstat 发表于 2017-7-7 09:07:45 | 显示全部楼层
备好小板凳啦
回复 支持 反对

使用道具 举报

davidxie1 发表于 2017-7-7 11:36:44 | 显示全部楼层
哪位高手给个答案阿?
回复 支持 反对

使用道具 举报

zkftyj0806 发表于 2017-7-7 11:40:36 | 显示全部楼层
同等待答案
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-9-26 03:11

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表