在企业的管理经营中,会遇到对大体量的互联网用户群体进行分类等问题,涉及到的用户属性信息和行为数据很多,靠直觉和经验无法做出合理的判断,就需要用到聚类的算法。
以下是聚类分析的步骤。
1、聚类变量的选择:
任何事物都有多种特征,在对事物进行分类时,不可能将所有的特征都用在模型中,那样只会得到一个混乱的结果,且会更加降低模型的可解释性。所以,在选择模型输入变量时,首先要明确此次聚类分析的目的。根据所要达成的目标,来筛选输入变量。
例如,互联网平台的运营者经常会对用户进行聚类分析,基于不同的分析目标,则会有侧重地选择输入变量。如果是分析用户的成交行为,则可以选择基础属性、浏览行为、历史成交数据等维度的变量;如果是分析用户的满意度,则可以在模型中加入用户咨询、投诉、退换货的数据变量;如果是分析用户对产品的使用情况来改善和优化产品设计,则应该在模型中加入用户使用产品的一些行为数据。
模型中具体选用哪些输入变量,要经过多次的尝试,才能得出最佳的验证。确定好输入变量之后,还要进行标准化,再做接下来的计算操作。
2、选择合适的聚类算法。
常用的聚类分析算法有K-Means算法。可以用分析软件,如python、R语言等,快速地进行聚类操作。
如何确定k的值:
K值代表分类的数量。企业中的聚类分析是为了服务于业务,所以在设置聚类数量的时候,应当参考的是业务的需要。从商业的角度来说,聚类有助于细分和精细化运营,也有利于更好地挖掘事物的特征。但如果划分的类别太多,没精力做到精细化的管理,那聚类就是没有意义的。所以,聚类要考虑到需求方的管理能力。比如现在公司共有三个业务小组,各负责一个类型的客户,那聚类的时候可以设置K=3。如果业务需求一开始就对k值做了定义,比如将用户分为多少个群组,就可以按照预定义的数值来聚类。在分析的过程中,可以尝试下k-1、k+1是否能得出更好的结果来。
可以结合可视化的方式,来查看簇和簇之间分离的是否明显;某个簇中是否只有很少的点;是否有质心靠的很近等等。
在聚类分析开始之前,无需对每个对象进行标注。在聚类之后,可以用描述性的词语来标注每个聚类簇。例如簇1定义为“高价值用户”。标注每一个类别的分组,有助于更容易理解该组别的特征,各部门针对聚类分析的结果可以进行更顺畅地沟通。
3、解释各类别,并应用在实践当中
得出聚类的结果后,还要从业务的层面来解读聚类的结果。这一部分的工作是建立在对业务的理解之上,对业务越熟悉,越能全面地解读。可以借助描述性分析来找出组内对象之间的相似性,并给每个分组改一个贴合业务的名称。
4、追踪模型效果并优化。
要追踪模型聚类结果在实践中的应用效果,并以此为依据,来回顾模型分类的结果是否合理,是否要调整输入变量和K值来优化、改进模型算法。