[Day 28] 资料产品开发实务 - 非机器学习模型

模型当然也有纯理论的介绍方法,但实务上是很难单谈模型的,今天这篇会介绍过去常用、也满泛用的不需要使用机器模型的分析手法以及对应的商业需求。

人口描述

https://ithelp.ithome.com.tw/upload/images/20210928/201411409LsZNBHwo1.png
(https://classlesdemocracy.blogspot.com/2018/07/personal-profile-sample.html)

整个资料分析的报告架构就如同说故事般,透过数据引导听众建立对於消费者的想像。故事的第一页通常会描写时间季节,写到人物时也只会初步描述人物的年龄长相,资料分析的第一个环节也由这边展开......

以消费者资料库为例,分析之前先确认要分析的资料期间,是最近一年有消费者消费者? 还是历史以来的消费者? 以第一次接触资料来说,可以先分析历史以来的消费者以及最近一年的消费者,好处是可以知道整体的消费者样貌,并且从整体以及今年的资料比较中了解消费者有没有转变。

确定好分析的时间後,接着就会就各个人口变项观察消费者的样貌。通常我们在描述一个人的样貌的时候,可能会说黑色短发、身高160公分、体重60公斤、30岁男性上班族等等特性,然後透过每个人对於这些特性的了解,我们可以大致想像口中描述的人的样貌,但这是对一个人的描述。资料库分析或是统计分析,也是在描述消费者样貌,但是不同的是分析对象并非"单一个人",而是"一群人"。如果我要介绍我办公室的同事,或许有办法跟你一一介绍,但是如果我需要介绍几百人、几千人、甚至几万人的时候,我就不可能用这种一一介绍的方式,而是会用组成结构的方式来描述这群人。例如,这一群人平均身高165公分,平均70公斤,有一半男生、一半女生。你可以发现,我所介绍的特性与刚刚介绍一个人的时候并无不同,只是我所描述的并非单一个人的状况,而改用一些所谓"统计"术语(例如平均、百分比)来介绍这"一群人"的人状况。以下我们将介绍两种最常用来描述消费者轮廓的统计术语。

  • 平均数
    平均应该是大家最常听到的统计概念,但也是最容易被误用的统计概念。平均数的计算单纯就是把N个数量加总後除以N而得,像是平均身高160公分,表示有些人高於160公分、有些人低於160公分,虽然我不知道最高多少最低多少,但是这个群体整体来说大概就是160公分。如果我知道有另外一群人平均身高170公分,那我还可以进一步想像当两群人同时出现,平均身高160公分的那群人应该是普遍比较矮的。因为平均数很好算,大部分的情况也通用,因此平均数很适合,也很常用来描述一群数量的中心位置。不过在使用平均数前,请先注意资料的分配是不是贴近常态,以及有没有特别极端的值来影响数据。因为平均数虽然好用,但是也很常被误用,甚至误解。

大部分的人对於平均数的想像其实更贴近统计上"众数"的概念,而非真正的平均数。例如当我说A团体平均身高160公分的时候,脑海中会直觉的想像这一群人大部分都是在160公分上下。但是如果有个B团体里面有十个人身高180公分,十个人身高140公分,这个B团体平均身高也是160公分。或是如果有个C团体,一个人身高200,另外几个人身高都150的时候,C团体平均身高也会是160公分。那如果我们直接说A、B、C三个团体平均身高都160公分时,会容易误导听故事的人对於这三个团体的想像。因为一般人对於统计的不熟悉,以及误用,所以研究者更需要注意这种情形,来选择适合的描述方式,避免误导听众。

  • 百分比
  • 如果需要描述的特性是不能相加的,例如头发的颜色,或是"年龄层",那我们可以使用百分比的方式来描述消费者。百分比的计算也相当简单,有该特性的人口数量,除以整体人口数量,再乘以100,即可知道具有该特性的人口占所有人口的比例是多少。50%是女性,代表团体里面有一半是女性。25-34岁占20%、35-44岁占30%、45-54岁占40%、55岁以上占10%,那我们可以知道这个团体大部分的人年龄在35-54岁之间。百分比的好处是相当直觉,生活中也相当常见,因此听故事的人通常会很容易想像你所描绘的轮廓。

但是在描述百分比的时候,会建议标一下实际数值在旁边以供参考,然後选择想要强调的重点来使用百分比或实际数值。比如说:"我们家会员有10万人每年只消费一次",这是个听起来很大的数字,但是说不定这10万每年只消费一次的会员只占整体会员的0.1%,这时候就可以不用强调100万这个实际数字。又或者"我们有30%的消费者不喜欢红色的上衣",但是这个调查的母体只是个总共10人的焦点座谈会,这时候就可以用实际人数来代替百分比。两者的使用单纯视需求而定。

人口描述是最简单,但是也最基本、最重要的分析。透过人口描述可以初步了解、观察消费者的样貌,提供想像的基础,事後其他的分析都是从这些分析中延伸出来。当然,描述的方法当然不只有平均数和百分比而已,要用什麽统计值来描述资料纯粹就资料的性质和需求而定。虽然我们常说数字不会说谎,但是选择要使用何种数字以及何种解释方式的,终究是人,这点我认为才是研究人员最为重要,也最难拿捏的地方。

八二法则

https://ithelp.ithome.com.tw/upload/images/20210928/20141140LGQSp7cYwH.png
(https://17growth.net/pareto-principle/)
有天老总提了个要求,希望重新设定VP客户分群,希望将客户分成几群来拟定行销策略。CRM分析一个很重要的精神就是帮客户分群,於是这个工作理所当然地落到我们的头上。一般我们都会利用客户的贡献程度来将客户分群,但是传统上到底要切成几群,或是要怎麽分一直没有个依据(通常是依据直觉),所以这次我们就利用很红的八二法则来将客户分群。

八二法则又称为80/20或是帕雷托法则(资料来源http://zh.wikipedia.org/zh-tw/%E5%B8%95%E9%9B%B7%E6%89%98%E6%B3%95%E5%88%99),简单来说就是20%的客户贡献80%的业绩,既然大部分的业绩都是少数客户创造的,他们自然可以称之为品牌的VIP,享有特别的待遇。

80/20法则的概念非常简单,但是不确定适不适用於我们公司,是我们就分别计算三年每个客户的消费金额,分别计算人数以及消费金额的百分位数,观察消费额第80th的金额落在累积人数中的哪个位置,就知道多少消费者创造80%的业绩。以我们公司来说,大约是25%的消费者可以创造80%的业绩,虽然不是准确的80/20,但是也差不了多少,而且三年的比例也都差不多,可见我们公司大约是80/25的状况。

八二法则将客户分成两块之後,我们想再进一步做更细致的分层,於是另外观察前百分之一的消费者贡献的比例以及前50%消费者的贡献比例(分别贡献了45%和90%,社会真是不公平不是吗 ?)如此我们就顺利将消费者切成四块,并且分别得知人数比例以及贡献程度,之後我们就能依照不同的客群来拟订行销策略。

客户分层是每家厂商都会做的策略,但是在切消费族群的时候是如果单纯依靠经验(直觉)很容易会发生误判,如果能配合CRM资料就能跟精准的了解每个消费族群的界线,对於客户分群或是行销策略都能更贴近实际的状况。

建立使用者标签

https://ithelp.ithome.com.tw/upload/images/20210928/20141140P26eEWHJRe.jpg
(http://www.whatlauralovesuk.com/2015/12/instagram-tags-this-december.html)

DATA MINING 最重要的观念也是最常用的功能就是集群(Cluster)和关联(Correlations)。在分析资料时,可以透过消费者(或产品)不同的特性来加以集群或测量关联,例如 35-44 岁消费者的消费模式类似的分群,或年纪越高购衣频次越高这样的关联分析。集群或关联本身操作都很容易,难的事前的准备工作,也就是将消费者(或产品)标上不同的特性。能蒐集的特性越多,能分析的东西也就越多。

消费者的特性通常在资料库开始就设定好了,例如性别、年龄、消费次数、最近消费日期等等,当然我们也可以透过POS系统计算出一些更详细的消费者属性,例如购物周期、购物类别等等。但是另外一些人格特质、生活风格甚至媒体使用行为,或其他产品使用行为,就难以从资料库中挖掘。这时候可以透过另外的调查,适度地做些资料 fusion(资料融合),来取得会员资料库中没有的资料,以便做更多的分析。不过 data fusion 是另外一门学问,将来也会开专文来说明。

而产品的特性,除了一些基本的重量、尺寸外,其他难以量化的特性,例如风格、设计元素,就要用 TAG 的方式来加以建立了。TAG直译为标签,也就是用文字化的方式(质性)的方式来说明产品特性,并切成一个个分开独立的元素。例如我们将一件裤子,除了它的材质、尺寸外,另外加上几个标签像是:独立的、叛逆的、风格强烈的、欧洲风、花纹。如此一来我们就有更多的变项能够分析消费者的购买行为,比如说某个或某类的消费者,都很常购买具备「狂野」TAG 的服饰,未来在推荐上或是商品组合上,就能更精准地将具有狂野特性的服饰推荐给消费者。

很经典的例子就是 NETFIX,他们之所以能快速掌握消费者喜好的节目,就是在每个影集挂上成堆的 TAG,当消费者看了几部影集之後,就能透过 TAG 之间的关联性,推断使用者喜爱的电影、电视风格,在寻找有相同 TAG 元素的影集推荐给消费者,造成消费者的高黏着性和收视率。

TAG 的建立可以是封闭式的--如让产品设计者登录 TAG;或是开放的--让消费者自由的添加新的TAG。前者的优点是容易管理,後者的优点是更贴近消费者的使用概念。TAG的用途在於将原本难以量化的产品特性变成一个个独立可以分析的元素,当抽象的元素变成可分析的变项後,DATA MINING 就可以介入发挥其效用。

消费者流失模型

https://ithelp.ithome.com.tw/upload/images/20210928/20141140TBQPrfsCBz.png
(https://julies.pro/tw/blog/r%E5%AD%B8%E7%BF%92%E7%AD%86%E8%A8%98-%E5%A6%82%E4%BD%95%E7%B9%AA%E8%A3%BD%E5%AD%98%E6%B4%BB%E6%9B%B2%E7%B7%9A)

很多人在谈感情的时候,常常因为爱,所以付出许多;而通常付出越多,这份感情也更珍贵,也越舍不得放弃这段感情。这是基於人们本性上对於损失的厌恶(或者可说是沉没成本谬误),所以当我投入越多的金钱或情感,这个关系也相对更为重要。而消费者与品牌的关系,是不是也会有这样的联结呢?

为了证明这件事情,我们将消费者在品牌的消费当成消费者的成本,以是否继续购买来观察消费者是否维持或放弃这段关系,目的是想要知道是否消费者投入越多,维持关系(继续在品牌消费)的机率也就越高。

这个问题对於行销相当关键,一般来说,开发新客户的成本是维系旧客户的5倍。留住越多旧客户,相对来说也节省了相当多的开发客户成本。如果我们知道当消费者投入越多,留住的机率也越高时,我们就可以透过各种行销方案吸引消费者达到留住的消费门槛,来降低客户的流失率。

所以我们要做的事情有两个。

  1. 需要知道各个消费层级客户的流失率
  2. 找出在什麽样的消费下能够大幅降低客户流失率。

实作上我是以第一年的消费来做区分,来观察第一年各累积消费的客户在第二年持续消费(或流失)的机率。结果发现,当消费者的年消费越高,次年流失的机率越低;除此之外,也有边际效益递减的情况出现。也就是说,当消费者的年消费从零开始增加时,能够大幅增加隔年继续消费的机率,但是这个效益会逐渐减少,当消费者消费更多时,隔年继续消费的机率不再有明显的提高。如此一来我们就能透过各种不同的行销方案来有效提升消费者的品牌忠诚度,并且可以事先估计消费者明年持续消费的机率。

RFM 模型

https://ithelp.ithome.com.tw/upload/images/20210928/20141140YW2mFXUY1o.png
(https://medium.com/marketingdatascience/rfm%E6%A8%A1%E5%9E%8B%E8%88%87%E5%B8%82%E5%A0%B4%E5%8D%80%E9%9A%94-41307bb4df67)

BIG DATA在行销研究中其中一个重要应用就是将消费者分群,再依照不同族群的特性拟定不同的行销策略以达到更精准的行销策略及更佳的行销效益。这样分群 > 拟订策略 > 效益评估是个标准的行销研究流程,这篇文章只会提到第一个步骤-分群其中的某种方式而已。

分群的方式千千百百种,可以依照年龄分、性别分、地区分,要依照什麽来分端看需求和消费者特性来说,没有一定的方式。今天要介绍的RFM模型,是使用R(最近消费日期)、F(消费频次)、M(消费金额)来做使用者分群,使会员资料库分析中常用的分析模型。

RFM模型将消费者依R>F>M来区分成不同的族群,做法是先将R分成五等分後,再将每个等分里的消费者依照F和M再区分成五等分,所以最後会有125个群组。但是实务上我们并不会真正设计125种不同的行销方案,我们可以简单的分成4群或9群,再来设计。每一个分群都代表不同类型的消费态度和习惯,也可以依此来设计相对应的行销方式。

RFM模型的原理很简单,而分群只是行销的第一步,如何帮各族群命名,和针对族群设计策略才是重点,这个可以留到後续辅助或自动决策章节来讨论。


<<:  第10-2章:监控与管理作业系统上之程序(二)

>>:  Day 14 - PHP SDK: 用 Pure PHP 建立购物网 (上)

Know all about types of research papers in Australia

Know all about types of research papers in Austral...

Day 30: 完赛总结

终於完赛啦! 这次挑战赛仅聚焦於结构化资料的资料分析,非结构化资料(图片声音影片等等),就需要用到深...

JS 18 - 阵列也有赝品?如何辨识伪造的阵列?

大家好! 昨天我们建立了看似阵列的物件,其实它就是接下来要介绍的伪阵列物件(Array-like O...

当心已死前,来看看这篇吧!

撰写这篇时,其实心情已经平复了不少 从 2014 年加入新创团队至今也超过七年了,过程中从未有过长假...

Countdown Clock

[Day28] Countdown Clock 倒数计时器 let countdown; const...