数据挖掘一:概况

文章目录

概况

  1. 定义
    从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程
  2. 作用
    解决四类问题:分类、聚类、关联、预测
  3. 方法
    决策树、神经网络、关联规则、聚类分析等
  4. 结果
    输出模型或规则

常见的商业问题主要转化为四类挖掘问题

  1. 分类问题
    1. 数值型目标变量(Y)--有监督学习
    2. 预测的结果是类别,而非数值
    3. 对已知的样本数据来训练,从中得到相应的分类规则,利用这些分类规则,对未知分类的样本数据来进行预测,从而得到它们所属的类别或概率
    4. 常见的分类方法有:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归……
    5. 解决的商业问题:
      1. 用户流失预测
      2. 促销活动相应
      3. 用户信用评估
  2. 聚类问题
    1. 无目标变量(Y)--无监督学习
    2. 聚类是按物以类聚的原理,将数据合理归类的方法。
    3. 常见的聚类算法有:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类……
    4. 解决的商业问题:
      1. 目标市场细分
      2. 现有客户细分
  3. 关联问题
    1. 无目标变量(Y)--无监督学习
    2. 基于数据项关联,识别频繁发生的模式
    3. 常见的关联算法有:Aprior算法、Carman算法、序列算法
    4. 解决的商业问题:
      1. 哪些商品同时购买的几率高
      2. 如何提高商品销售和交叉销售
  4. 预测问题
    1. 数值型目标变量(Y)--有监督学习
    2. 根据已知目标值的历史样本来进行模型训练,建立模型,用建立好的模型对未知的样本预测其的目标值
    3. 常见的预测方法:简单线性回归分析、多重线性回归、时间序列……
    4. 预测商业问题:
      1. 未来气温预测
      2. GDP增长预测
      3. 收入、用户数预测

数据挖掘流程

CRISP-DM 数据挖掘方法论

阶段一:商业理解
  1. 确定商业目标
  2. 确定挖掘目标
  3. 制定项目方案
阶段二:数据理解
  1. 数据收集
  2. 数据描述
  3. 数据探索
  4. 质量描述
阶段三:数据准备
  1. 数据导入
  2. 数据抽取
  3. 数据清洗
  4. 数据合并
  5. 变量计算
阶段四:模型构建
  1. 准备训练集和验证集
  2. 选择使用建模技术
  3. 建立模型
  4. 模型对比
阶段五:模型评估
  1. 技术层面
    1. 设计对照组进行比较
    2. 评估指标:命中率、覆盖率、提升度等
  2. 业务经验
阶段六:模型部署
  1. 营销过程跟踪记录
  2. 观察模型衰退变化
  3. 引入新的特征优化模型
  4. 模型写成程序固话平台
原文链接:,转发请注明来源!
评论已关闭。