《数据科学面试40+真题讲解》,K神本年度最后一次开课


一亩三分地论坛

 找回密码
 Sign Up 注册获取更多干货
码农求职神器Triplebyte:
不用海投,内推你去多家公司面试
Airbnb 数据科学职位
in analytics and inference
天天打游戏、照样领工资,
你要不要来?
把贵司招聘信息放这里
查看: 1650|回复: 13
收起左侧

请教两道脸书data scientist的product实验设计题目

[复制链接] |试试Instant~ |关注本帖
newape 发表于 2017-7-6 07:31:10 | 显示全部楼层 |阅读模式

2017(7-9月) 分析|数据科学类 博士 全职@Facebook - 内推 - 技术电面 |Other其他

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看,没有帐号?Sign Up 注册获取更多干货

x
(帮别人发的)

知道地里很多同学在准备product题目,其中实验设计经常出现,在这里想向大家请教两道题目,谢谢!.鐣欏璁哄潧-涓浜-涓夊垎鍦

第一题:研究如果向用户推送close friends有update的notification,用户行为的变化. more info on 1point3acres.com
http://www.1point3acres.com/bbs/thread-273654-1-1.html. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷


第二题:研究父母加入FB对用户行为的影响
http://www.1point3acres.com/bbs/thread-209706-1-1.html

我的问题是这两题应该用a/b testing还是cohort analysis?. from: 1point3acres.com/bbs

a/b testing主要用于测试population里在同一时间一个变量对group A和group B的作用,group A和group B要comparable,要randomize。cohort analysis主要是分析population里面一小撮人,强调的是用户前后行为的对比。

a/b testing的问题:对于第一题,如果对愿意接受推送和不愿意的用户进行a/b testing是有bias的,愿意接收推送的人可能本来就很关心自己的close friends,所以有了推送之后,他们的活动会增加,这两个population就不是random的。对于第二题,如果直接比较有父母和没有父母的两组,很有可能是在有父母的里面,很多用户本来就不care父母,所以最后比较结果不显著。. Waral 鍗氬鏈夋洿澶氭枃绔,

Cohort的问题:没办法控制时间变量,可能有外在其他因素影响。

我的想法是,可否用两个cohort来进行前后对比。比如第一题,设置两个cohort,cohort A:接受的A,没接受的B。当cohort B在turn on前后没有显著差异的时候(确认没有外在条件影响),再分析cohort A在turn on前后是否有显著差异(但是感觉还是有点儿问题,比如如果外在事件只影响一个cohort呢)

评分

1

查看全部评分

oliviajzma 发表于 2017-8-1 01:58:00 | 显示全部楼层
第二题可以讨论一下吗?我在另外一个贴里面恢复了相同的内容。
. 鍥磋鎴戜滑@1point 3 acres
我不是学统计的,我学经济的,而且我学习也不太好,所以大家take a grant of salt。
. 涓浜-涓夊垎-鍦帮紝鐙鍙戝竷
如果是的话这个题目A/B testing 应该是做不了的。A/B testing只能做experiment data,就是实时randomize control vs experiment然后看metrics。在这个题目里父母加入fb这个事情是自发的,不是像某一个web page有A,B两个版本这么可以简简单单assign给experiment的。换句话说自发性的父母加入fb的user本身可能带有某些特征可能导致user今后behavior的变化,
但是这些特征由于无法control,是没有办法用randomization给撇除的。

我能想到的是把过去的observation data拿来做一个linear regression:

activity = alfa + beta*parents_join(dummy) + other dummies (control of individual heterogeneity)

左手边是user's activity (可以是一个weighted average of all kinds of metrics to measure activity, i.e. login frequency, average active time, number of posts, number of likes, etc.)

右手边是一个dummy variable, 可以叫它 parents_join, create a time series for dummy, suppose parents joined fb on 2005/1/1, parents_join == 0 before that date, and parents_join ==1 after that date.
右手边还可以加点其他dummy to control for individual differences, such as age, religion, country of origin。 或者不搞零碎的dummy可以索性可以搞一个user_id,更像做一个fixed effect.

看一下结果,如果beta结果是significant而且是正的(say 0.02),那就说明holding constant everything else, users with parents joined fb is associated with 0.02% increase in their activity。反之同理。. 鐗涗汉浜戦泦,涓浜╀笁鍒嗗湴
. 1point3acres.com/bbs
linear regression和a/b testing比较最大的问题就是没有办法得出casual relationship, 但是这个命题决定了不能做a/b testing,所以我觉得搞个linear regression也是还可以的。

补充内容 (2017-8-1 01:42):
不知道说清楚没,这个regression 是一个panel data fixed effect,所以有time and user 两个variable uniquely identify each observation。
回复 支持 1 反对 0

使用道具 举报

iamchrisa 发表于 2017-7-6 10:17:01 | 显示全部楼层
谢谢楼主分享 搬好小板凳等下面的高手回答
回复 支持 反对

使用道具 举报

ElaineAAAAA 发表于 2017-7-7 00:13:23 | 显示全部楼层
同等高手ing
回复 支持 反对

使用道具 举报

ucaksil 发表于 2017-7-7 05:45:26 | 显示全部楼层
同等高手解答~~!
回复 支持 反对

使用道具 举报

XiaonanD 发表于 2017-7-7 06:03:58 | 显示全部楼层
同等高手答疑解惑!
回复 支持 反对

使用道具 举报

zcalbert 发表于 2017-7-7 08:56:12 | 显示全部楼层
小板凳坐等
回复 支持 反对

使用道具 举报

Kevinstat 发表于 2017-7-7 09:07:45 | 显示全部楼层
备好小板凳啦
回复 支持 反对

使用道具 举报

davidxie1 发表于 2017-7-7 11:36:44 | 显示全部楼层
哪位高手给个答案阿?
回复 支持 反对

使用道具 举报

zkftyj0806 发表于 2017-7-7 11:40:36 | 显示全部楼层
同等待答案
回复 支持 反对

使用道具 举报

gennypan1989 发表于 2017-10-30 07:32:47 | 显示全部楼层
oliviajzma 发表于 2017-8-1 01:58
第二题可以讨论一下吗?我在另外一个贴里面恢复了相同的内容。

我不是学统计的,我学经济的,而且我学习 ...

我觉得搞回归,可能并不切中问题要害。题目问的是causal effect,就是父母加入和用户流失关系。回归,我们能做的就是像你说的描述选取的变量和流失的一些指标的关系,其中有两个问题,一个是你无法知道你是不是把会影响到流失的所有变量都选进去了,第二就是holding other constant的问题,现实情况是很多变量互相之间是有关系的,这会影响到解释父母亲那个dummy(假如有另一个变量是像微信一样关掉对父母现实内容的按钮,那么用了这个的人可能即便有父母为好友,可能也还会继续使用脸书)。
回复 支持 反对

使用道具 举报

gennypan1989 发表于 2017-10-30 08:11:53 | 显示全部楼层
我觉得第一题可以ab testing 愿意接受推送和不愿意的用户确实有bias的,但是并不意味着选择control and test按这个来选。假设在这个feature上线前,尽可能随机选两个组,关键是要决定测量的是什么指标。我觉得可以是engagement相关的,比如对主页上消息的ctr等等。
第二题,我觉得原帖里面的假设检验的回复是个可行办法。另外一个我想到的是类似cohort的思路搞个回归,所有人,加父母之前之后的metric一个作为y,另一个作x,另外一个就是父母这个dummy.
忘更多高手赐教。
回复 支持 反对

使用道具 举报

本版积分规则

关闭

一亩三分地推荐上一条 /5 下一条

手机版|小黑屋|一亩三分地论坛声明

custom counter

GMT+8, 2017-11-20 10:34

Powered by Discuz! X3

© 2001-2013 Comsenz Inc. Design By HUXTeam

快速回复 返回顶部 返回列表