利用ClementineC5.0模型预测CDMA客户流失

来源:岁月联盟 作者:赵伦 时间:2014-06-01

    摘要:该文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,通过收集客户的基本数据、消费数据和缴费行为等数据,建立客户流失预测模型,进行客户流失分析及预测。通过对大量相关技术和统计方法的研究,最终确定了clementine的C5.0模型作为电信客户流失的预测模型。此模型对客户流失预测有较高的准确性,为电信经营分析系统作了有益的尝试与探索。
  关键词:数据挖掘;客户流失;统计分析;C5.0模型;CDMA客户

  1 概述
  以中国电信云南某公司的项目支撑为基础,从统计数据来看,维持5%的老用户增长,给电信公司带来的利润将远远超过85%,而要想把一位非电信用户发展成客户,其成本将比保留一位老客户的成本高得多,统计数据表明成本是4倍左右,此时,客户对电信的忠实程序也将发生强烈的变化,由此给企业造成的损失将大大增加。从项目的实施情况来看,为了保证成功向客户推销运营商的产品,多数人都只愿意向老客户推销。因为由此付出的代价比用户要小得多,成功率也要高得多。通过这些数据我们可以看到防范老客户的流失相比发展新用户来说就显得尤为重要了,这也是普遍企业最为关注的问题之一。
  2 研究现状及C5.0模型特点
  在我们国内,很多运营商为了应对市场的竞争,多数都己经建立了 “电信经营分析系统”,这在一定程序上为深层次的数据分析提供了良好的数据处理分析平台。而目前国内在数据利用上确远远不及国外的层次深,国内的数据应用主要集中在固定报表处理、查询分析和个人的主观探索,在更高领域的应用如数据挖掘还不太成熟,更谈不上深层次的应用。而这些在国外,很多知名的电信运营商却已经能够很好地利用数据挖掘技术,以便通过建立客户流失的模型,提升利润空间及对一些流失概率比较高的客户进行有针对的保留工作,这样做的目的可能有效地控制入网用户的流失。
  Clementine作为一个数据挖掘软件,给运营商创造了很好的数据处理应用平台,在此平台下,运营商可以有效地使用一些商业技术准确、快捷地建立预测的模型,而后把由此模型生成的数据使用在推销应用领域。参照行业执行标准CRISP-DM模型,我们可以有效地改进决策过程,这不仅可以数据到更优商业成果的数据挖掘。而且还可以这样可以分析出哪些属性是影响客户流失的重要因素。现在比较流行的流程包括决策树、神经网络、逻辑回归、聚类关联性分析等。本文选择的是C5.0模型节点来进行电信的客户流失预测。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本,目标字段必须为分类字段,允许进行多次多于两个子组的分割。它通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去直到无法继续分割子样本。
  C5.0可以生成两种模型:
  1)决策树是对由算法建立的分割的简单描述,每个终端(或“叶”)节点可描述训练数据的特定子集,而训练数据中的每个观测值都完全属于树中的某个终端节点。
  2)规则集则是尝试对单个记录进行预测的一组规则,规则集源自决策树,并且在某种程度上表示在决策树中建立的经简化或提取的信息版本。对于所存在的问题,例如缺失数据和大量输入字段,C5.0模型十分稳健,通常不需要花费很长的训练时间用于估计。同时C5.0模型与其他模型类型相比更容易理解,解释起来更简明易懂。
  3 建构并应用C5.0模型
  在clementine中使用C5.0模型进行电信客户流失预测的过程包括:找到数据源:本例中数据源为基于Excel的电子表格,打开Clementine,在对话框中选择数据源项,可以直接双击我们要使用的Excel进行编辑,在导入文件中选择要用的数据源。然后在选项板中选择字段节点,进行类型编辑,设置客户流失项为输出项。接下来在建模里根据需要选择合适的特征选项,此时,该节点会根据设置的条件(如缺失的百分比)筛选出可删除的字段,如预测变量,依据我们的挖掘需求,保留的预测变量,并按重要性进行排序。生成过滤节点后,在里面可看到保留了对输出(也就是客户的流失标志)有影响的项,去掉了对输出没什么影响的项。总的挖掘过程和过滤如图1-图2所示。