我们截至今天为止,总共在 firebase 上做了 168 次 A/B Testing

我跟男友开发这个聊天软件三年,刚刚回去算我们截至今天为止,总共在 firebase 上做了 168 次 A/B Testing。
只有41次有 Clear improvement found,也就是信赖水准在 95% 以上,占所有实验的24%。
57次是 Possible improvement found,也就是信赖水准在 67%以上,占所有实验的33%。
两个加起来 57%。剩下的43%,就是 Baseline is probably best 或 Insufficient data。
意思是有将近一半的功能,我们做完後,因为没有通过实验,而在测试後淘汰。

https://ithelp.ithome.com.tw/upload/images/20210917/20141356o29eLteJXj.png

大功能不一定数据好

有时候花很多力气做了一些「大功能」,实际开始测试後,对於数据几乎都没改善。
也有些时候,只是一个小改动,就可能可以增加 10% 广告收入。
很残忍的是,花的时间跟成果不一定成正比。

失败不是结束

通常我们的流程是,如果出现 clear improvement found ,那没什麽好怀疑的,就可以release。
如果出现 Possible improvement found,那就会仔细看一下所有的指标,如果所有的指标都出现正面倾向,那我也会倾向 release。
如果出现 Baseline is probably the best,或 Possible improvement found 但其他指标的结果有好有坏,那我们通常会回去看功能有没有什麽可以改善的地方。
改过之後,再拿出来实验一次。
通常不会在第一次失败就放弃,会迭代几次之後,再决定要不要放弃这个功能。

实验的失败率是创新指标

一开始讲到我们 43% 实验是失败告终的。
其实超过一半的成功机率,我觉得有点太高。
对我来说,这是我们太过保守的表现。
就算实验失败了,等於也是我们又学到一件新的跟我们的产品有关的洞见。
成功当然令人开心,但成功率太高,也有可能是因为花比较多时间做一些比较直观的改善,而不是探索其他选项。
追踪实验的失败率,是一个量化目前团队有没有大胆创新的好指标。

最新文章会分享在脸书:https://www.facebook.com/gigi.wuwu/
欢迎留言讨论


<<:  兴起想做 Design System 的起源

>>:  16.unity介面按钮

Day_20 DNS/DDNS/Port Forwards (一)

先前介绍的几个网路架构,多数提到的IP都是在区域网路之内设备上的部份,但如果连上外网,这些资讯封包就...

【Day 3】机器学习基本功(一)

机器学习三大步骤 定义一个模型(model) 从模型里挑出好的函式(function) 经由演算法找...

Day 08 import 进阶

这篇主要是讲到有关 Python 中很重要的 import,因为如果後面在做大型专案时,常常需要 i...

【Day2】Splash画面X变更AppIconX字型自订

今天我们要来完成 splash画面,也就是启动时App会跳出短暂的画面。 变更AppIcon的图示 ...

Day 5 [Python ML] 欠拟合(Underfitting)和过拟合(Overfitting)

实验不同的模型 若是是太多分支,会造成leaf太多,而每一个leaf都只是用其中一笔资料建立出来的,...