概况
- 定义:
从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程 - 作用:
解决四类问题:分类、聚类、关联、预测 - 方法:
决策树、神经网络、关联规则、聚类分析等 - 结果:
输出模型或规则
常见的商业问题主要转化为四类挖掘问题
- 分类问题
- 数值型目标变量(Y)--有监督学习
- 预测的结果是类别,而非数值
- 对已知的样本数据来训练,从中得到相应的分类规则,利用这些分类规则,对未知分类的样本数据来进行预测,从而得到它们所属的类别或概率
- 常见的分类方法有:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归……
- 解决的商业问题:
- 用户流失预测
- 促销活动相应
- 用户信用评估
- 聚类问题
- 无目标变量(Y)--无监督学习
- 聚类是按物以类聚的原理,将数据合理归类的方法。
- 常见的聚类算法有:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类……
- 解决的商业问题:
- 目标市场细分
- 现有客户细分
- 关联问题
- 无目标变量(Y)--无监督学习
- 基于数据项关联,识别频繁发生的模式
- 常见的关联算法有:Aprior算法、Carman算法、序列算法
- 解决的商业问题:
- 哪些商品同时购买的几率高
- 如何提高商品销售和交叉销售
- 预测问题
- 数值型目标变量(Y)--有监督学习
- 根据已知目标值的历史样本来进行模型训练,建立模型,用建立好的模型对未知的样本预测其的目标值
- 常见的预测方法:简单线性回归分析、多重线性回归、时间序列……
- 预测商业问题:
- 未来气温预测
- GDP增长预测
- 收入、用户数预测
数据挖掘流程
CRISP-DM 数据挖掘方法论
阶段一:商业理解
- 确定商业目标
- 确定挖掘目标
- 制定项目方案
阶段二:数据理解
- 数据收集
- 数据描述
- 数据探索
- 质量描述
阶段三:数据准备
- 数据导入
- 数据抽取
- 数据清洗
- 数据合并
- 变量计算
阶段四:模型构建
- 准备训练集和验证集
- 选择使用建模技术
- 建立模型
- 模型对比
阶段五:模型评估
- 技术层面
- 设计对照组进行比较
- 评估指标:命中率、覆盖率、提升度等
- 业务经验
阶段六:模型部署
- 营销过程跟踪记录
- 观察模型衰退变化
- 引入新的特征优化模型
- 模型写成程序固话平台