第九章：聚类分析的典型应用和技术小窍门-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

第九章：聚类分析的典型应用和技术小窍门

阅读量：4978 次

发布时间：2019-06-12

本文共 1160 字，大约阅读时间需要 3 分钟。

9.1聚类分析的经典应用场景

目标用户群体分类

不同产品的价值组合

探测、发现孤立点、异常值

9.2主要聚类算法的分类

9.3聚类分析在实践应用中的重点注意事项

数据化运营中聚类算法主要是K-Means算法，但其对噪声和异常值非常敏感（K-Means算法用的是平均值来聚类）

9.3.1针对数据噪声和异常值的处理

直接删除那些比任何数据点都要远离聚类中心点的异常值

随机抽样规避数据噪声的影响

9.3.2数据标准化

数据标准化是聚类分析中最重要的一个数据预处理步骤，它即可以为聚类计算中的各个属性赋予相同的权重，还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异

数据标准化有很多不同方式，标准差标准化最常用（Z-Score标准化），处理后数据符合标准正态分布，即均值为0，标准差为1，转化公式如下：

9.3.3聚类变量少而精

紧紧围绕具体分析目的和业务需求挑选聚类变量

通过相关性检测，防止相关性搞的变量同时进入聚类计算

衍生变量

主成分分析

9.4聚类分析的扩展应用

9.4.1聚类的核心指标与非聚类的业务指标相辅相成

　　先通过用户行为属性的核心字段进行聚类分群，得到比较满意的聚类分群结果之后，针对每个具体的细分群体，再分别考察用户的会员属性（年龄、性别、地域、收入、爱好等）

9.4.2数据的探索和清理工具

聚类技术产生的聚类类别可以作为一个新的字段加入其它的模型搭建过程中

聚类技术可以作为细分群体的建模依据

聚类技术的应用本身就是数据探索和熟悉的过程

聚类技术对变量的聚类是精简变量的有效方法

聚类技术还可以用检查数据的共线性问题

9.4.3个性化推荐应用

9.5聚类分析在实际应用中的优势和缺点

K-Means算法的优点：

算法成熟可靠

不仅是模型技术，直接响应业务需求，同时还是数据分析前的数据摸底和数据清洗的效思想和工具

聚类技术比较容易用商业和业务逻辑来理解和解释

K-Means算法简洁、高效，算法时间复杂度是O(tkn,t是循环次数（算法收敛是已经迭代次数），K是聚类的个数（类别数量），n是数据点的个数（样本数量），由于t和k远远小于n，所以算法时间复杂度与数据集的大小线性相关)

K-Means算法是一个不依赖顺序的算法

K-Means算法的缺点：

数据分析师需要事先指定聚类的数目k,在实践中要测试多个不同的k值才能根效果比较来选择最合适的k值

算法对数据噪声和异常值比较敏感

9.6聚类分析结果的评价体系和评价指标

9.6.1业务方的评估

9.6.2聚类技术上的评价指标

9.7一个典型的聚类分析课题的案例分享

案例背景

基本的数据摸底

基于用户样本的聚类分析的初步结论

转载于:https://www.cnblogs.com/jp-mao/p/9790635.html

你可能感兴趣的文章

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-08 18:05:36 当前IP: 18.118.19.189 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我