9.1聚类分析的经典应用场景
- 目标用户群体分类
- 不同产品的价值组合
- 探测、发现孤立点、异常值
9.2主要聚类算法的分类
9.3聚类分析在实践应用中的重点注意事项
数据化运营中聚类算法主要是K-Means算法,但其对噪声和异常值非常敏感(K-Means算法用的是平均值来聚类)
9.3.1针对数据噪声和异常值的处理
- 直接删除那些比任何数据点都要远离聚类中心点的异常值
- 随机抽样规避数据噪声的影响
9.3.2数据标准化
数据标准化是聚类分析中最重要的一个数据预处理步骤,它即可以为聚类计算中的各个属性赋予相同的权重,还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异
数据标准化有很多不同方式,标准差标准化最常用(Z-Score标准化),处理后数据符合标准正态分布,即均值为0,标准差为1,转化公式如下:
9.3.3聚类变量少而精
-
紧紧围绕具体分析目的和业务需求挑选聚类变量
- 通过相关性检测,防止相关性搞的变量同时进入聚类计算
- 衍生变量
- 主成分分析
9.4聚类分析的扩展应用
9.4.1聚类的核心指标与非聚类的业务指标相辅相成
先通过用户行为属性的核心字段进行聚类分群,得到比较满意的聚类分群结果之后,针对每个具体的细分群体,再分别考察用户的会员属性(年龄、性别、地域、收入、爱好等)
9.4.2数据的探索和清理工具
- 聚类技术产生的聚类类别可以作为一个新的字段加入其它的模型搭建过程中
- 聚类技术可以作为细分群体的建模依据
- 聚类技术的应用本身就是数据探索和熟悉的过程
- 聚类技术对变量的聚类是精简变量的有效方法
- 聚类技术还可以用检查数据的共线性问题
9.4.3个性化推荐应用
9.5聚类分析在实际应用中的优势和缺点
K-Means算法的优点:
- 算法成熟可靠
- 不仅是模型技术,直接响应业务需求,同时还是数据分析前的数据摸底和数据清洗的效思想和工具
- 聚类技术比较容易用商业和业务逻辑来理解和解释
- K-Means算法简洁、高效,算法时间复杂度是O(tkn,t是循环次数(算法收敛是已经迭代次数),K是聚类的个数(类别数量),n是数据点的个数(样本数量),由于t和k远远小于n,所以算法时间复杂度与数据集的大小线性相关)
- K-Means算法是一个不依赖顺序的算法
K-Means算法的缺点:
- 数据分析师需要事先指定聚类的数目k,在实践中要测试多个不同的k值才能根效果比较来选择最合适的k值
- 算法对数据噪声和异常值比较敏感
9.6聚类分析结果的评价体系和评价指标
9.6.1业务方的评估
9.6.2聚类技术上的评价指标
9.7一个典型的聚类分析课题的案例分享
- 案例背景
- 基本的数据摸底
- 基于用户样本的聚类分析的初步结论