工作中经常会有AB相关工作，空闲下来进行了梳理，整个文档没有重点关注AB中对应统计知识，一方面觉得展开的话太多，另一方面也受限于个人水平。不足之处肯定很多，希望和大家多多交流，大家多多提意见，感谢大家。

一、背景：

实际工作中，为了优化用户产品体验，或者验证运营策略，机器学习模型线上效果等等，我们通常都会进行线上的AB测试。多个方案线上运行对应周期后，回收数据以验证各方案策略的有效性，所以这里离不开数据分析最基本的思维—对比。指定参照进行数据对比，便知孰好孰坏。所以通俗不严谨的理解，可以认为ABtest是一个对比实验，但AB有着其科学的严谨性。

(相关资料图)

二、AB测试的大体流程：

1.明确测试目的

2.确定测试关注指标

的假设

4.确定测试对象

5.实验样本量计算及流量分割

6.线上实验配置及有效性验证

7.数据评估及AB迭代

1.明确测试目的

理清需求，明确AB的目的是为了什么，是否有必要进行线上验证，因为有些疑惑通过数据分析也能实现。个人理解，AB还是有一定的成本的，比如对用户体验的影响，所以有必要清楚目的，评估而行。

2.确定测试关注指标

核心收益指标：最为关心的核心指标，即测试目的所在，如订单被司机接单的应答率。

潜在负向指标：这类指标不是AB直接所影响，但潜在因为AB的策略会带来负面影响，如司机接到订单后的取消率。

辅助指标：辅以观察ab效果的指标，电商中的用户的复购率等等。

的假设

简单理解

这里其实是假设检验的思想在主导，构造本次AB测试的原假设和备择假设，即本次实验想要验证的东西。

如：检验样本均值是否存在差异：

或者二者是否是存在某个值的差异（c是常数，如均值差异2以上的等等）：

当然对于比例类的假设检验形式也是类似的，这里就不展开了。

第一类错误和第二类错误

第一类错误错误，即‘弃真’错误，小概率事件发生了我们认为实验组和对照组存在显著差异，而事时上二者无显著性差异，这个错误的概率就是；

第二类错误错误，即‘取伪’错误，实验组和对照组两组实际有差异时被拒绝掉的概率，这里会涉及到统计功效（1-第二类错误，实验组&对照组有差异且能被检测出来的概率）；

4.确定测试对象

这里要明确以下几个点：

测试上线平台，版本等等

测试上线功能/策略，明确AB中需要测试的策略、产品功能

测试上线的用户群体，要保证分流的科学合理性。

只有科学变量的控制，才能保证AB最为基础的可对比性，得到的结论才可靠。

5.实验样本量计算及流量分割

实验样本量的计算，AB测试指标的从当前表现到预期收益需要多少样本量，这可以从对应的统计学知识计算所得，大致如下(具体公式可以查看对应统计知识了解即可)：

实验样本量计算

均值类检验所需样本量计算

n是所需样本量，实验组和对照组理论上样本一样多，则至少需要2n样本；α和β即为假设检验中的提及到的第一类错误和第二类错误的概率（一般分别取和），Z为正态分布的分位数函数；Δ为两组数值的差异；σ为标准差，是数值波动性的衡量，σ越大表示数值波动越厉害。

所以可知在其他变量不变情况下，当实验组&对照组数值的波动性越小，所需要的样本量就越小。

比例类检验所需样本量计算：

其中P1和P2是我们实验中的对照组和实验组的取值，其余同上。

在线工具进行样本量计算：

该在线计算样本量工具还是很好用的，大家可以用用看

实验流量分配

1.实验对用户体验感知影响很小，通常可以较大流量测试，如实验组：对照组 50%：50%的流量分配

2.实验稳定性不高：如新功能的上线，策略变动较大等，一般先小流量进行测试，后续依据表现放量。

3.依据实验的收益预期来判定：如希望获得很大的收益，在确定较大负面影响下，可以大流量上线。

流量分配比例假定ok之后，结合实验的样本量需求，则实验的实验周期即可得知：

如对订单进行分流：

平台日均订单100w，AB测试样本量需要30w，流量分配为10%，则可知30w/(100w*10%)=3天；

这里很重要的一点是，一个测试周期尽量要覆盖用户或者业务的一个周期性规律：

如短视频的周末播放量整体会偏高，用户刚接触新产品功能时会有新奇效应

关于AA实验

在我面试过程中面试官问过，怎么验证流量是均匀的，或者说如何证明你的实验收益不是波动所带来的？

这里其实可以通过AA实验（也可以设置AABB实验）,通过AA实验的效果可以在指定显著水平下计算指标的波动置信区间，这样我们就得到了对照组的波动范围，也可以验证分流是否是ok的；

对于测试我们同样可以计算出对应的指标波动的置信区间，这样对比即可知实验收益是否是否是由波动所造成的。

6.线上实验配置及有效性验证

实验的配置一般分为两种：

1.正交实验：

实验1和实验2是互斥的，彼此流量是互斥的；实验1和实验2流量打乱之后再分配到实验3和实验4，此时实验3和实验4是互斥的，但是和实验1与实验2是正交的。

2.互斥实验

互斥实验大体如下，各实验流量之间互斥

3.一些较为复杂的策略：

事实上，当ab测试活动比较多时，经常为了评估活动的有效性，实验的配置设置上会比较复杂，以下图为例：

基于贯穿周期的对照组和实验总流量分层这样的设计，来评估多活动共同作用下的整体收益

4. 实验配置后要数据查验

实验配置ok后，最好做一下数据查验工作，检查所设置实验是否真实线上生效，我个人遇到过2次研发实验配置错误导致数据回收不到的问题。

7.数据评估及AB迭代

这里个人认为至少有以下几点需要关注：

1.核心指标变化：以用来评估方案好坏

2.收益是否长期有效，AB在实际的复盘中不同周期试验下要考虑的问题是不完全相同的，如前期可能是关注指收益指标，中后期可能会更加关注短期内无法暴露出的负面影响，比如是否带来用户流失等问题。

3.不同类别/群体表现是否存在差异

基于上述这些思考来衡量AB是否扩量还是暂时下线迭代：

如笔者曾经评估过一个司机像用户提出加价申请的AB，当时大体如下的评估框架：

编辑切换为居中

三、AB测试中的几个注意事项：

1.保证实验组和对照组流量分配的均衡，以保证可实现最基础的对比；这里可以做AA实验，以及AABB实验等来进行验证。

2.保证版本，时间等客观的外界环境的的一致性。

3.实验生效日期尽量要覆盖业务的一次规律特征周期，或者是用户的一个完整的活动周期。

4.一次实验尽量保证用户的地理位置可比性，同事可以避免用户之间的交流带来的影响。

5.个人觉得没必要不停的检验数据是否有正向收益。

四、AB测试中的一些其他思考：

1.关注指标收益正向，但检验不显著，实验该作何处理？

个人理解，AB的目的是为了优化，如果线上收益是正向的，虽然检验不显著，但是可以继续保持线上运行，初次之外要关注是否存在可优化点。

2.实验中指标1正向收益，指标2收益负向，实验该作何处理？

个人理解，明确AB的首要关注指标，如果核心关注指标1，而指标2的负向暂时是可以接受的，则暂时可以保持AB的正常运行，可将实验周期再稍微拉长，重点关注下指标2的表现，这样指标2的问题得以放大，更利于解决。

3.实验指标收益不显著得做法？

通常做法有2：

1.增大实验样本量来快速验证实验是否真实有效

2.调整实验策略

进一步思考,为啥实验有时需要很大得样本量，这里本质上是关注指标的变动大，方差大，从而需要较大样本量来进行验证；唤个角度思考，如果把关注指标的方差缩小，那么所需样本量就随之减小。

前段时间学习，了解到了CUPED的方法（Controlled-experiment Using Pre-Experiment Data），简单介绍如下：

CUPED算法是一个通用的方法，主要利用实验前的无偏数据，（一般选取实验前的同一指标）对实验核心指标进行修正，使得新指标的方差更低，得到更敏感的新指标，放大treatment的影响。

CUPED思路如下：

编辑

编辑切换为居中

其中CUPED的结果关键点需要注意一下：

1.协变量X的选择：

通常为和Y相关的变量，多数情况下还是关注指标的本身，不过该指标数据可以选取实验前一定周期内的数据

2.部分样本缺乏数据的处理办法：

部分新用户在实验前缺乏数据，可以使用实验前对应指标的均值来进行代替

3.。。。其他注意点，还在学习理解中。

4.实验放量后，核心指标呈现负向

此时要从以下几个方面思考问题：

样本量的问题，是否随机，是否充足

实验周期

数据统计口径

用户群体问题

放量前的实验组用户、放量后新增的实验组用户、放量后对照组用户，看一下哪类用户影响的，一般而言，实验结果的差异，是与之前不同的那个人群造成的，需要找出这部分人群。

8. AB实验中的注意事项

1.不同组的实验参与对象互不干扰

2实验分组保证随机性，同一用户在实验期间保持所在组统一

。。。

推荐内容

数据分析-ABtest 理解&注意事项&面试常问题目

2023-08-27
质检员报考条件要求质检员报考条件

2023-08-27
A股护盘进行时：11天166家上市公司官宣回购，抗跌反转力道几何？

2023-08-27
受降雨影响，河南多条高速实施管制

2023-08-27
铭普光磁董秘王妮娜年仅39岁已跳槽4次在5个公司工作过

2023-08-27
建议中年女人，夏天衣不紧身、裙不穿花、戴首饰，这对母女都上头

2023-08-27
联想ThinkPad P16 2023笔记本开售：RTX A1000显卡加持

2023-08-27
涵养科创生态 “新”产业聚木成林扬州生态科技新城推动项目入驻“开园即满园”

2023-08-27
三部门：深入推进家政服务等民生消费领域信用建设

2023-08-27
原神宝箱在哪里坐标大全

2023-08-27
退役安置到北京大学，丁宁级别年薪如何？因刘国梁提前退役

2023-08-27
刘江任六盘水市副市长

2023-08-27
XAUUSD：底部明显，逢低可多

2023-08-27
大连庄河一库房凌晨失火，消防回应

2023-08-27
安逸四川日历海报｜在遂宁大英，看“盐文化+盐应用”文旅新场景

2023-08-27
多样选择：吉利银河 L6混动车型预售价位12.8-15.8万元

2023-08-27
西游记师徒四人图片恐怖西游记师徒四人图片

2023-08-27
SpaceX猎鹰9号将龙飞船发射升空，四名宇航员前往国际空间站

2023-08-27
今日qq农场自动偷菜软件（求QQ校友偷菜班级）

2023-08-27
争光股份08月23日主力大幅流入

2023-08-27
感受新发展激发新动能共绘新图景——“双千行动”省级调研视察活动系列访谈之一

2023-08-27
铁路科学安排运力地铁联手高校迎新武汉有序迎接新学期客流高峰

2023-08-27
枣庄调整公积金政策：支持老旧小区加装电梯提取住房公积金

2023-08-27
落叶故乡的湾潭

2023-08-27
iQOO Z8将于8月31日发布带来同价位领先的闪充和散热

2023-08-27
网传《中国好声音》导师出场费，周杰伦只排第二，有人赚了1.6亿

2023-08-27
持续抢购俄油一年多，印度能源部长：印度并不过度依赖俄罗斯石油

2023-08-27
易贝乐英语培训机构怎么样（易贝乐英语）

2023-08-27
心痛！中国队全军覆没，男单已8年无缘冠军，是否应该断代培养？

2023-08-27
刚刚，最新暴雨预警！陕西多部门联合发布…

2023-08-27
吉林师范大学分院是大专吗？

2023-08-27
郴州瓦窑坪古村文化古街开街迎客

2023-08-27
沙特联：利雅得胜利5-0哈萨征服，迎联赛首胜，C罗戴帽，马内双响

2023-08-27
游客自驾被拦路收费500元，当地回应

2023-08-27
一地设立“暑假作业缓交期”？网友吵翻了

2023-08-27
梦见别人家小孩死了是什么意思梦见别人家小孩死了好不好

2023-08-27
昨夜今晨，京津冀发生这些大事（2023年8月27日）

2023-08-27
《植物大战僵尸》全成就需要哪些条件？全成就汉化一览

2023-08-27
光源股票一览（2023/8/22）

2023-08-27
【世界说】美国大麻产业已成“庞然大物” 政府的不作为助长其危害

2023-08-27
索尼掌机再发明年上市支持远程连接

2023-08-27
2023税务师税法二高频考点：城镇土地使用税的税收优惠

2023-08-27
豪悦护理：上半年净利同比增长24.09% 拟10派8.5元

2023-08-27
集气瓶图片集气瓶

2023-08-27
AI行业集体坐等的财报来了！净利润暴涨843%，英伟达已杀疯

2023-08-27
天津生态城消费券领取全指南（时间+方式）

2023-08-27
保定三套房认定有什么标准？

2023-08-27
越秀地产董事长林昭远：企业出问题不能怪市场，只能怪自己

2023-08-27
全省首场“政企直通车·你我面对面”座谈会在沈河区举办

2023-08-27
外贸高质量发展将获重磅政策力挺更多信贷支持、财税优惠等措施有望落地

2023-08-27
8月24日中国出版涨停分析：知识付费，传媒，知识产权概念热股

2023-08-27
巴黎对朗斯5分钟3红牌巴黎3-1朗斯取得赛季首胜基本情况讲解

2023-08-27
亳州谯城高效推进“民声呼应·暖心走访”

2023-08-27
质检员报考条件要求质检员报考条件

2023-08-27
A股护盘进行时：11天166家上市公司官宣回购，抗跌反转力道几何？

2023-08-27
疯狂农民工在线阅读（疯狂农民工）

2023-08-27
俄外交部发言人：西方正组建反俄阵线

2023-08-27
中消协发布消费提示：保持理性不盲目跟风抢购食盐等消费品

2023-08-27
谷神星一号遥八运载火箭发射成功

2023-08-27
张宇和十一郎的爱情：17岁相恋，30岁结婚，50多岁依然恩爱

2023-08-27
深圳市启动2024年重大项目计划申报

2023-08-27
从暑期档看电影营销，谁最该为票房负责？

2023-08-27
数据分析-ABtest 理解&注意事项&面试常问题目

2023-08-27
微软Office加载项升级，新增多项功能

2023-08-27
华住、同程最新财报亮眼；酒店涨价多少才算合适？| 一周速览

2023-08-27
充电显示可能不支持此配件（可能不支持此配件）

2023-08-27
亚运会倒计时30天｜乐动无双

2023-08-27
跟着《长相思》打卡上榜国家地理的江南秘境

2023-08-27
官宣！阿里国际站真的送AI进外贸工厂“打工”了

2023-08-27
中圭友谊青年领导力代表团赴华交流

2023-08-27
铝将成为电动汽车车身的主要材料之一铝行业未来发展趋势分析

2023-08-27
高压带电显示器电压多少高压带电显示器

2023-08-27
2023直到世界尽头成都演唱会门票价格及购票入口

2023-08-27
“江浙沪独生女”，婚恋之路怎么走？（上）丨海派爱情

2023-08-27
买超回应与美女亲密搂肩被拍：别断章取义别编故事

2023-08-27
90%所谓“环保吸管”都有毒：PFAS化合物含量惊人

2023-08-27
建议中年女人，夏天衣不紧身、裙不穿花、戴首饰，这对母女都上头

2023-08-27
惊喜!“双轨产业+成熟配套”,京北最难抢的盘来了

2023-08-27
跨界融合展演激活暑期文旅消费市场

2023-08-27
受降雨影响，河南多条高速实施管制

2023-08-27
20多万买特斯拉？新款Model 3即将上市 8月见

2023-08-27
信达证券给予百龙创园买入评级，重点单品表现亮眼，业绩提升有望持续

2023-08-27
丹东有哪些土特产

2023-08-27
铭普光磁董秘王妮娜年仅39岁已跳槽4次在5个公司工作过

2023-08-27
NHTSA提议强制车企安装乘客安全带提醒系统

2023-08-27
盐渍鲜海参的发制方法盐渍鲜海参的发制方法有哪些

2023-08-27
m2m中文歌曲（m2m中文歌）

2023-08-27
香港知名女星公开承认整容，为稳固豪门地位，花重金打排卵针怀孕

2023-08-27
暑期旅游热度不减培育智慧旅游沉浸式体验新空间激发消费活力

2023-08-27
揭秘！骗子是怎么进“家长群”的？

2023-08-27
南京聚隆回购为更好套现？上市公司回购需拿出足够诚意

2023-08-27
纪录在追他！梅西9场11球，名场面：6人目送推空门，2.5万人见证

2023-08-27
国寿寿险：上半年互联网保险业务保费收入536.80亿元同比增长38.1%

2023-08-27
中国经济信心说丨专家解读：工业机器人销量全球第一，动力从何而来？

2023-08-27
交通运输部：重点物流通道枢纽运行基本稳定应急运力储备充足

2023-08-27
信阳健康码实行精准分类管理（信阳市健康码）

2023-08-27
被骗至缅甸的中科院博士获救！志愿者披露细节

2023-08-27
全球财富报告出炉，你在哪个梯队？

2023-08-27
有用但别期待 Win11原生RAR/Z7Z压缩性能实测：速度实在太慢

2023-08-27
神十六乘组在轨近三个月太空科研之旅过半

2023-08-27
韩国最大在野党党首谴责日本将福岛核污染水排放入海

2023-08-27
梦见龙是什么预兆

2023-08-27
第四届中国（甘肃）中医药产业博览会开幕：千年药乡迎嘉宾

2023-08-27
日本核污染水排海：居民抢盐、日料店“地震”、日系化妆品受牵连……

2023-08-27
中国银河：给予中国电建买入评级

2023-08-27
资源县举行《莲花台上唱山歌》《世界的资源》《资源之恋》新歌发布会

2023-08-27
腾达推出RH7-WCA室外全彩无线球机 149元

2023-08-27
汉字找茬王击败绿茶通关攻略分享

2023-08-27
盒马与山姆之争的冷思考：请尽快走出价格战

2023-08-27
消息称三星计划 2025 年量产卷轴屏智能手机

2023-08-27
太湖云（871403）：2023年上半年净利润为-928.28万元，同比亏损增加

2023-08-27
合肥允许开学两周内补交暑假作业，市教育局提醒各校设立“暑假作业缓交期”

2023-08-27
纪录在追他！梅西9场11球，名场面：6人目送推空门，2.5万人见证

2023-08-27
珠海有新房五折卖？开发商回应了

2023-08-27
百度发布Q2财报：营收341亿元净利润同比增长44%

2023-08-27
曹慧泉在石峰区下沉接访

2023-08-27
经典旋律重现 “艺术之门”常开

2023-08-27
百合佳缘集团发布2023《年轻情侣同居调查报告》女性对于同居关系更为谨慎

2023-08-27
核污水排海韩国已出现连锁反应多个行业感到形势不妙！

2023-08-27
《流放之路》S23奇拉克的宝库介绍

2023-08-27
元气满满！各地高校迎来开学季一起来看迎新现场

2023-08-27
产品执行标准是否打年份？市场监管总局回复

2023-08-27
葡萄起司蛋糕(关于葡萄起司蛋糕简述)

2023-08-27
一夜10大转会动态：利雅得胜利再签新援，巴萨将决定法蒂未来

2023-08-27
3kg等于多少升

2023-08-27
市人大常委会在主题教育中坚持立良法促发展保善治——聚焦“小切口”立法厚植民生底色

2023-08-27
2023中国·山西（晋城）康养城市推介会举行

2023-08-27
三部门：深入推进家政服务等民生消费领域信用建设

2023-08-27
安徽省启动重大气象灾害（暴雨）Ⅳ应急响应

2023-08-27
王多多本周英超预测：切尔西胜赢2球及以上放弃预测阿森纳vs富勒姆

2023-08-27
手动挡汽车打火步骤（手动挡汽车怎么打火正确步骤？）

2023-08-27
一帧中国丨集合汉字、女真文的《奥屯良弼践饮题名跋》（2023年8月27日）

2023-08-27
涵养科创生态 “新”产业聚木成林扬州生态科技新城推动项目入驻“开园即满园”

2023-08-27
联想ThinkPad P16 2023笔记本开售：RTX A1000显卡加持

2023-08-27
这些孩子用手搭起“天安门”“西安钟楼”……

2023-08-27
别若则错：高海拔湖泊的独特之美

2023-08-27
原神宝箱在哪里坐标大全

2023-08-27
业内：固收类理财产品依旧具备较好的投资价值

2023-08-27
山东第一医科大学新生报到，忙坏师哥师姐

2023-08-27
我见过真正厉害的父母，都在培养孩子的“反脆弱”体质

2023-08-27
财政部要求不折不扣落实中小企业财税支持政策

2023-08-27
刘江任六盘水市副市长

2023-08-27
盐城市老旧小区改造暨加装电梯现场会在滨召开

2023-08-27
剧透！无锡这些地方要大变样……

2023-08-27
海珠湾隧道拟采用自由流方式收取通行费

2023-08-27
在母婴店预订奶粉，老板撤店拿钱找不到人了

2023-08-27
面部脂肪填充可以保持多久

2023-08-27
最新灾害风险提示：湖北自西向东将有一次强降水

2023-08-27
中国银河给予天康生物推荐评级，23Q2公司业绩承压，生猪出栏保持快增长

2023-08-27
宁夏寰美乳业发展有限公司(关于宁夏寰美乳业发展有限公司简述)

2023-08-27