查看: 2887|回复: 6
收起左侧

A/B Testing 中常犯错误总结

    |只看干货
youyu0625 | 显示全部楼层 |阅读模式
本楼: 👍   90% (9)
 
 
10% (1)   👎
全局: 👍   98% (58)
 
 
1% (1)    👎

注册一亩三分地论坛,查看更多干货!

您需要 登录 才可以下载或查看附件。没有帐号?注册账号

x
第一类错误:对于统计概念的错误理解
1. Data peeking: 发现结果显著后就不再收集数据,提前结束experiment。错误原因是,experiment的时长是根据statistical power,significance level, day of week effect,seasonality等因素计算出来的,数据不够结果可能很不一样(estimated treatment effect ≠ true treatment effect)。更重要的是,这样的结果在launch product后可能无法reproduced。

2. Multiple testing problem: 有多个target metrics时,根据一个或部分metric显著,就决定launch new feature。错误原因是,如果根据未调整过的significance level来得出simultaneous testing的结果,很有可能导致type I error (其实也是一种data peeking)。
常见场景包括:
  • multiple metrics in an A/B test
  • one metric in an a/b test with multiple treatment groups
  • a segment of the population
  • multiple iterations of an A/B test
  • multiple a/b tests in parallel


解决办法:
  • experiment之前把所有metrics分为三组:those you expect to be impacted(比如metric A),those potentially to be impacted(比如B、C),those unlikely to be impacted(比如D)。
  • 对于不同组使用tiered significance levels (A:0.05,B、C:0.01,D:0.001)。
  • 如果结果是A显著,BCD不显著,与预期一致;如果A不显著,BCD显著,需要debug一下。


3. Lack of statistical power:没有足够的randomization units来detect the effect size,但得出no treatment effect的结论。比如计算得出每组需要1000个用户来达到80%的statistical power,如果试验结束后只有900个,结果不显著,也不能说明no treatment effect,因为test是underpowered的。这时需要继续收集到足够的数据。

第二类错误:忽略了一些影响因素导致结果无效

1. Sample ratio mismatch: sample ratio between control and treatment is not as designed,比如1 (design ratio) vs 1.1 (observe ratio),test结果会受到影响。

常见原因:
  • bugs or problems in assigning users to different groups (ramping up plans, multiple experiments in parallel, segmentation is based on some attributes that can change over time等)
  • bug in the pipeline (比如test前filter out fraudulent users) that causes the false positive rate to be different in different groups


Debug方法:
  • Gap upstream of the randomization point
  • Check if the variant assignment is done correctly
  • Look into the data processing pipeline
  • Check different segments of population


2. Violation of SUTVA (Stable unit treatment value assumption): A/B testing的一个假设是randomization units是互相独立没有interaction的,如果假设不满足,结果也不可靠。常见场景如social networks (Facebook),用户行为相互影响,或者是two-sided markets (Ebay, Uber and Lyft),control和treatment groups compete for the same resources。解决方法包括,在不同的地理位置分别选取control和treatment groups,尽量监测interference。

3. Changes in user’s behaviors: 包括novelty effect (更喜欢尝试新事物)和primacy effect(更喜欢现有的东西),常发生于initial period after users see a new product or feature。虽然无法解决,但可以monitor if such effects exist and quantify them,并在做决定时将这种影响去除。

继续总结了一些笔记,非常感谢小姐姐的视频:
https://www.youtube.com/watch?v=dLwH1kp03kE&t=126s
https://www.youtube.com/watch?v=VvcFb4lP2vQ


评分

参与人数 19大米 +25 收起 理由
UBCCS + 1 给你点个赞!
Jack2020u + 2 很有用的信息!
EricJiang + 1 给你点个赞!
uglyuga + 1 很有用的信息!
DrPanPan + 1 赞一个
zhangyue1996 + 1 赞一个
小米啊 + 1 很有用的信息!
xmxm930 + 1 给你点个赞!

查看全部评分


上一篇:ds跳槽面试有感
下一篇:数据库连接问题
hcchen 2021-7-30 07:11:21 | 显示全部楼层
本楼: 👍   75% (3)
 
 
25% (1)   👎
全局: 👍   97% (610)
 
 
2% (15)    👎
不知道lz有没有工作。 bloody truth是一般有significant result 就赶紧 launch 100%了。 有时95%不行就调整成90%。。。

评分

参与人数 2大米 +2 收起 理由
brtt13 + 1 真相了
strmic1994 + 1 很有用的信息!

查看全部评分

回复

使用道具 举报

effy94 2021-8-1 19:00:17 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (9)
 
 
0% (0)    👎
hcchen 发表于 2021-7-30 07:11
不知道lz有没有工作。 bloody truth是一般有significant result 就赶紧 launch 100%了。 有时95%不行就调整 ...

太真相了...为了full-on,也是各种找有利点,不行就换指标
回复

使用道具 举报

小米啊 2021-8-10 13:51:49 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (25)
 
 
0% (0)    👎
面试中经常会被问conflict result(比如一个指标up,另一个指标down),请问这种一般怎么分析比较好?
我的想法如下,欢迎讨论:
1. 两个指标是否分别显著,如果有一个不显著,那么就跟着显著的metric的direction做结论。
2. 此外,当然可以对于不显著但是又感觉counter-intuitive的metric单独设计follow up test。
3. 如果product比较急,可以看看两个指标的ci来判断是否很偏离预期。如果down metric不是primary metric,其risk和cost是可以承受的,那么就ramp to next stage,并且可以进行long-term monitoring。

目前只想到这些,希望听听大家的想法。

评分

参与人数 1大米 +1 收起 理由
Pocono + 1 赞一个

查看全部评分

回复

使用道具 举报

欧阳洛雨 2021-8-20 18:13:48 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (17)
 
 
0% (0)    👎
收藏!谢谢分享~

评分

参与人数 1大米 +3 收起 理由
TIM58MAN + 3 A/B Testing确实重要,收藏等于学了~

查看全部评分

回复

使用道具 举报

TIM58MAN 2021-8-20 19:16:30 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   99% (351)
 
 
0% (1)    👎
欧阳洛雨 发表于 2021-8-20 18:13. From 1point 3acres bbs
收藏!谢谢分享~
A/B Testing确实重要,收藏等于学了~
回复

使用道具 举报

RubyJiangCMU 2021-8-20 22:51:50 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   83% (30)
 
 
16% (6)    👎
effy94 发表于 2021-8-1 07:00
太真相了...为了full-on,也是各种找有利点,不行就换指标

请问什么叫full-on呀?
回复

使用道具 举报

effy94 2021-8-22 11:56:58 | 显示全部楼层
本楼: 👍   0% (0)
 
 
0% (0)   👎
全局: 👍   100% (9)
 
 
0% (0)    👎
RubyJiangCMU 发表于 2021-8-20 22:51
请问什么叫full-on呀?

就是全量上线新版本
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册账号
隐私提醒:
  • ☑ 禁止发布广告,拉群,贴个人联系方式:找人请去🔗同学同事飞友,拉群请去🔗拉群结伴,广告请去🔗跳蚤市场,和 🔗租房广告|找室友
  • ☑ 论坛内容在发帖 30 分钟内可以编辑,过后则不能删帖。为防止被骚扰甚至人肉,不要公开留微信等联系方式,如有需求请以论坛私信方式发送。
  • ☑ 干货版块可免费使用 🔗超级匿名:面经(美国面经、中国面经、数科面经、PM面经),抖包袱(美国、中国)和录取汇报、定位选校版
  • ☑ 查阅全站 🔗各种匿名方法

本版积分规则

>
快速回复 返回顶部 返回列表