② 如前一段分析中提到的,增加这个差评标签可能短期内减少用户点击率但增加用户体验或者长期有利。有一些指标可以在短期的 AB 实验中模拟探测长期的影响,如留存率、用户推荐(Net Promoter Score)、用户参与类指标(日活跃时长、活动数、互动率等)、用户终身价值预估(CLV: customer lifetime value)。我们可以选择留存率:发生购买行为的唯一用户在 14 天后仍然活跃的数量比上所有发生购买行为的唯一用户。留存率指标的问题,一个是它需要很长时间来开始计算(实验开始后 14 天才能开始计算),这出现了一段时间的空白(实验开始初14天),这段空白时间可以专注于其他指标的计算和做探索性分析(EDA exploratory data analysis);还有一个问题是(也是很多购物场景其他指标的问题)用户发生购买行为的频次一般不会很高,这涉及到具体的平台和场景,但我们可以在筛选人群的时候做 cohort analysis instead of population,即做进一步筛选,选择共同特点(如购物频次较高的、在近似时间开始使用平台的人等)的用户群体。我们还可以选择用户日均活动数:sessions per user per day (or per hour depends on data),如何定义一个 session 呢?在文尾的注释有讨论。或者每次活动平均互动数。这个指标还有个潜在的问题是它很有可能非常的 stable,就是一个人一天的平均活动数可能不会怎么变,对于你上线的这点小功能,而如果你发现比较大的变动更多时候是说明你的实验设置的有问题,当然这也要具体看数据情况,也可以把活动数这种指标当作 invariant metrics 来看。
③ 与评价、用户体验等有关的 metrics。比如在之前的漏斗分析中,用户点进产品信息界面后,由于增加劣质商家标签减少了劣质及虚假产品的浏览,可能会增加用户完成购买的比率,即购买转化率:点击进入某一产品并完成购买流程的用户数量除以所有点击进入某一产品的用户数量。其他可考虑的指标:平均评价分数、产品收到的评价总数、评价情绪分析(使用 NLP 相关算法发掘评价中的情感信息,开心愤怒等)、用户反馈等。
④ 我们想要平台 financially sustainable,销售额是我们想衡量的一个指标。但销售额是一个短期指标,短时间内上线标签系统可能会导致买家减少购买行为、被标差评的卖家减少平台使用时间等从而导致销售额下降。我们需要综合考虑一些长期指标,如留存率、用户推荐(需要问卷调查)、用户参与程度(APP日均使用时长、number of sessions per user & interactions per session*)等(如①②③中所述)。还有一个问题是销售额可能会趋向于符合 perato distribution,就是常被提起的二八定律那个 distribution,少数人贡献了绝大多数的销售额。那我们选择销售额的什么 summary metric 呢?选择平均数或者中位数很可能会不 robust 或 sensitive(Udacity 课程上有很好的例子具体说明)。可选择 90% tail 等指标,去看是否 robust 和 sensitive。
.1point3acres
总结来说我们可以选择首页商品点击率、留存率、日均活动数、购买转化率和 销售额几个指标。有两个问题首先我们想了解各指标的 distribution,从而计算他们的 variability 等,还有我们要定义 total 汇总的指标,比如可以按照权重分配来加总各个指标。. 各指标的 distribution :点击率和留存率趋向于符合 binomial distribution,在样本量足够大的时候 (Np>5 & N(1-p)>5) 可以用 normal distribution 近似计算 variability。日均活动数 趋向于符合 poisson distribution (a discrete distribution with a long tail, 但 assumption 中说在各个时间段(每一天)应有相同的活动数,这点不一定符合,还是要看具体的数据)。销售额 可能趋于 pareto distribution,我们一般不取平均数或者众数而是 percentile (根据 sensitivity 和 robustness 具体定取多少 percentile)。 如何制定汇总指标:我们可以给各指标分配权重然后计算得到最终的汇总指标,对比计算单一指标这样可以综合考虑长期和短期的趋势,但也有很多缺点,如:各权重比例不好具体定义以及说服别人接受;在最后的综合指标产生变化时难以归因,可能整体指标涨了,但有两个小指标下降了三个小指标上涨了这样;指标之间往往是高度关联的,即某一个小指标的增长或减少可能会带动其他小指标增长或减少,而我们想优化某个小指标的时候也会带动其他指标始料未及的变化。Anyway,一些大公司(如微软)还是会用多个指标并分配权重。OEC (Overall Evaluation Criterion),一种说法是计算各个 metric 的 variability,然后按照他们加总比例分配权重系数,也就是说 variability 越大的分配的比重就越高,这是因为 variability 更大的指标有更大的潜力对最终的 metric 产生明显影响。
对于 invariant metrics,
首先是 number of user_id/cookies 在 A/B 组(根据我们的 unit of analysis 以及 unit of diversion 来决定)。然后还有一些,在我们漏斗分析里面实验不影响的流程,比如最终完成付款的人数比上点击“我想要”的人数,这可以衡量并保证我们的付款部分系统没有出现什么问题。