基于数据挖掘的电信行业客户流失管理研究

2025-03-26 版权声明 我要投稿

基于数据挖掘的电信行业客户流失管理研究(精选5篇)

基于数据挖掘的电信行业客户流失管理研究 篇1

信息系统研究方法与问题

学号: 专业: 姓名:

基于数据挖掘的电信行业客户流失管理研究

一、研究背景

2008年中国对电信运营企业进行了重组,中国移动和中国联通合并运

营TD—SCDMA网络,中国电信与中国联通C网合并运营CDMA2000网络,中国联通G网和中国网通合并运营WCDMA网络,从而形成了移动、电信、联通三足鼎立的局面,电信公司之间的竞争也越来越激烈。

对电信企业来说,客户是最重要的资源,也是生存和发展的必需品。客

户资源是电信运营企业的根本,保留并巩固客户资源意义重大。而在当前中

国电信市场下,电信运营商为了争夺客户,除了通过简单的价格竞争以外,还不断推出各种新的套餐和新的业务来优先获得客户资源,双卡情况越来越

严峻,这就在很大程度上加大了客户的不稳定性,使得客户在三家运营商之

间不断做出选择的现象频繁发生。据官方统计,中国移动客户的离网率近几

年不断攀升,2013年全年离网率高达50%左右。从客户关系管理理论上看,开发一个新用户的成本是保留一个有价值老用户的5-10倍,因此在新增电

信客户不断下降的时候,想要保持企业持续增长的利润就需要在挽留老客户

这一相对低成本高收益上想办法。

二、研究的目的和意义

本文的研究目的就是在对电信客户流失等业务知识的理解和研究一些

常用的数据挖掘方法上,依据数据挖掘建模流程,研究并实现一个准确实用的的客户流失预测模型和流失客户分类模型,并结合广丰县移动客户数据进

行分析,对分析结果进行评估验证。在对客户流失预测模型和流失客户分类

模型进行评估和结果分析的基础上,得到了有效的客户流失规则集,并给出

预测的准确率,同时依据流失客户分类结果对客户的挽留策略提出一些意见

和建议。最后对所做的理论研究工作、实验工作和实验中所遇到的问题以及

下一步工作进行总结。

三、研究的主要方法和手段

1、数据挖掘的定义

数据挖掘技术是数据库知识发现的核心技术,产生于二十世纪八十年末,至今大约经历了 30年的发展历史,但它的定义却没有一个被完全认同。因为

数据挖掘技术被广泛地应用到互联网、电子商务、零售、电信等各个领域在不同的领域应用也不同,因此各专家及学者也分别对数据挖掘进行定义:数据

挖掘就是从众多的、不完整的、有杂质的数据中,挖出隐含在里面的、人们以

前不清楚的、但又是潜在存在的有用信息的过程。简单地说,数据挖掘就是从

众多的数据中找出有用的信息,如图所示,数据挖掘被认为是知识发现过程中的一个步骤。

图1数据挖掘的过程

2、数据挖掘的任务

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差

分析等。

(1)关联分析(AssociationAnalysis)

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是

找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

(2)聚类分析(Clustering)

所谓聚类[55],就是按照事物的某些属性聚集成类,使得类间的相似性尽可

能的小,类间的相似性尽可能的大。聚类分析可以建立宏观的概念,发现数据的分

布模式,以及可能的数据属性之间的相互关系。聚类分析的算法可以分为以下几

大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。

(3)分类(Classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类可被

用于规则描述和预测。

(4)预测(Predication)

预测是利用历史业务数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常使用预测方差来度

量。

(5)时序模式(Time-series Pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

(6)偏差分析(Deviation)

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数

据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结

果与参照之问的差别。

在本文中需要数据挖掘完成的任务主要是对电信客户流失数据的分类及预

测。

3、数据挖掘过程模型

本文准备采用CRISP-DM模型来进行数据挖掘。CRISP-DM模型定义了 6个阶

段,分别是:商业理解(Business Understanding)、数据理解(Data

Understanding)、数据准备(Data Preparation)、建立模型(Modeling)、模型评

估(Evaluation)、发布模型(Deployment)。CR1SP-DM模型如图2所示:

图2CRISP-DM模型

4、数据挖掘工具

SPSS Clementine是一个开放式数据挖掘工具,它不但支持整个数据挖掘过

程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行

业标准CRISP-DM,提供了完善的项目管理功能。SPSS Clementine的可视化数据

挖掘使得“思路”分析成为可能,有助于把有限的精力放在对商业的理解、数据的处理和模型选优等关键问题上,即将精力集中在要解决问题的本身,而不是局

限于完成一些技术性的工作(比如编写代码)。提供了多种图形化技术,有助于理

解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法,根

据公布的用户基准测试,它在可伸缩性、预测准确率和处理的时间方面都表现得

很好。本文研究使用通用CRISP-DM标准的SPSS Clementine数据挖掘软件建立

电信企业的客户流失预测模型。

5、预测模型技术

决策树算法是二十世纪中期J.Ross Quinlan开发出来的一种算法,因其结

构就像一颗树,因此被称为“决策树”。目前决策树算法己经被广泛地应用于分类

识别问题的数据挖掘,它是利用分割前后信息熵来计算信息增益,并将其作为判

断能力的度量准则。

决策树算法是一种基于概率供给的分类方法,它是通过从一个空白的树开始,不断增加结点,逐步精确化的数据挖掘方法。决策树中每一条从根到叶结点的途

昆明理工大学硕士学位论文径即为一条合取规则,其整棵树则为析取规则的集合体。决策树算法的目的是通过向数据学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据对象的分类预测。届时,决策树能够依据

新数据输入变量的取值,推断其输出变量的分类取值。决策树算法属于有指导的学习,要求数据既包含输入变量也包含输出变量。决策树主要围绕两大核心问题

展开:第一,决策树的生长问题,即利用训练样本集来完成决策树的建立过程;第二,决策树的剪枝问题,即利用检验样本集对形成的决策树进行精简。不同决策树

算法采用不同的分枝生长及剪枝策略。

四、研究的重点和创新点

本文研究的重点在寻找用于挖掘的最优算法,准备通过以下模型来寻找最优

算法。

图3应用数据挖掘建立最优模型

本文的创新点准备放在对算法的优化上面。

参考文献

[1]杨树莲.数据挖掘在电信行业客户流失分析中的应用[J].计算机与现代

基于数据挖掘的电信行业客户流失管理研究 篇2

随着国内电信市场竞争格局的形成,如何以高质量的服务吸引和挽留客户、扩大市场份额、降低成本、提高收益,已经成为电信业决策者们共同关注的课题。国内电信业竞争不断加剧,客户争夺愈演愈烈,每个企业都存在客户流失的问题。传统上讲,留住一个客户所需要的成本是争取一个新用户成本的1/5,尤其对剩余客户市场日渐稀疏的通信行业来说,减少客户流失就意味着用更少的成本减少利润的流失,这点已为运营商所广为接受。

数据挖掘技术强大的数据分析功能可为运营商在海量的客户资料中提取有效的信息,以判断客户流失的状况或者倾向,以便有针对性地挽留客户。

客户流失管理作为经营分析系统中的一个重要主题。主要任务是根据已流失客户和未流失客户的性质和消费行为,进行挖掘分析,建立客户流失预测模型,分析比较各种类型客户的流失率,流失客户的消费行为,为市场经营与决策人员制订相应的挽留政策提供依据,降低客户离网率,减少运营成本。

2 数据挖掘概述

数据挖掘(Data Mining)是从大量存储的数据中,利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。数据挖掘所要处理的问题就是在庞大的数据库中寻找出有价值的隐藏事件,加以分析并将这些有意义的信息归纳成结构模式以帮助企业进行科学化的决策。

数据挖掘是一个循环往复的过程,其挖掘过程一般分为五个阶段:

1)定义业务问题:从业务角度来理解数据挖掘的目标和要求,在转化为数据挖掘问题。

2)设计数据模型,建立数据仓库。

3)分析挖掘数据,建立数据集市。

4)建立模型:选取挖掘工具提供的算法并应用于准备好的数据,选取参数,生成模型。

5)评估、解释和应用模型:对模型进行比较和评估、生成一个相对最优模型,并对此模型用业务语言加以解释且应用到业务活动中。

3 电信行业客户流失管理中数据挖掘的过程

在客户流失管理中,应用数据挖掘技术的主要思路是根据所拥有的客户流失数据建立客户属性、服务属性和客户消费数据与客户流失可能性关联的数据模型,找出其中的关系,并给出数学公式,从而计算客户流失的可能性。

数据挖掘技术在经营分析系统中是比较重要的也是相对独立的部分,它是在数据仓库的基础上直接进行的,由于数据仓库为其提供了集成的,一致的,经过清洗的数据,使数据挖掘免除了繁杂的数据准备过程。

3.1 定义业务问题

业务问题定义要明确数据挖掘技术解决的是何种问题,对客户流失管理来说就是要定义何为流失,包括判定客户为流失客户的标准与客户流失类型的定义。一般采用数据挖掘中的分类和预测方法来解决。

在移动通信领域的客户流失分析中有两个核心变量:财务原因与非财务原因、主动流失与被动流失。客户流失可以相应分为四种类型:其中非财务原因主动流失的客户通常是高价值的客户,这种客户是移动通信企业真正需要保住的客户。

3.2 设计数据模型,建立数据仓库

数据准备的是否充分,对于挖掘算法的效率乃至正确性都有关键性的影响。

3.2.1 数据选择

1)客户信息:包括用户的年龄、职业、在网时间、入网品牌、注册服务等,这些资料在客户登记入网的过程中得到,是对客户个体特征的描述,并永久保存在客户资料数据库中。

2)通话行为数据:这部分数据包括两类:一是基于用户通话清单设计的多个统计变量,例如:工作日通话时间、费用;IP通话时间、费用;亲情号码、漫游类型、消费积分等。这些数据可以在计费中心客户话费账单中获取。二是客户通过投诉渠道或客户服务界面进行有关缴费、服务投诉的情况。通过这两类数据给客户个体有了一个较为全面的描述,每一类描述就是一个相关变量。

3)其他信息:包括通信网络运行质量情况,如网络的质量、无线信道通话接通率等影响客户消费的网络因素。

3.2.2 数据清洗和预处理

原始数据首先要通过ETL(Extract Translate Load)工具完成数据抽取,转换和装载,将来自不同数据库的数据在类型、格式、编码规则等方面集成和规范化,最后将数据导入数据库。

在客户流失的分析模型中,数据的转换和整合在ETL阶段已基本完成,主要工作是提取符合流失判定条件的用户数据,然后根据各种情况所占比例进行抽样,对所抽取数据中的缺失值进行处理,以免对分析造成影响。

3.3 数据挖掘模型建立

数据挖掘的建模方法有决策树、神经网络、回归、关联、聚类等多种建模方法。这里选用决策树方法进行建模,采用的是一种改进的ID3算法。

3.3.1 传统ID3算法

决策树方法是数据挖掘的核心技术之一,是模式识别中进行分类的一种有效方法,它通过将大量数据有目的地分类,从中找出潜在的,对决策有价值的信息,应用于预测模型中,同时决策树方法可以把一个复杂的多类别分类问题转化成若干个简单的分类问题来解决。

国际上最有影响的决策树方法是Quinlan提出的ID3算法,其基本思想是将一棵决策树看作一个信源,利用信息增益寻找数据仓库中具有最大信息量的字段(属性),建立决策树的一个节点,再依次将字段的不同取值作为信宿的表现状态,找出信息量最大的字段建立树的分支;然后在每个分支子集中重复建立下层节点和分支的过程,即可建立决策树。

但ID3算法偏向于选取属性较多的属性,而不一定是最优的属性,此外ID3算法学习简单的逻辑表达能力较差,针对这些不足,本文提出一种加权熵的思想,对传统的ID3算法进行改进。

3.3.2 ID3算法的改进

设E=A1×A2×…×An是n维有穷向量空间,其中A1是有穷离散符号集,E中的元素e={V1,V2,…,Vn}称为例子,其中Vi∈Ai,i=1,2…,n。

加权熵的定义:设X为选择属性值,X有V个属性值,对应的权数为W1,W2,…,Wv,按照ID3算法对属性X进行扩展,对应的信息熵为E(B1),E(B2),…,E(Bv),定义加权熵为:

式中(B1,B2,…,Bv)是v个结点选择的属性,Wi是指分枝子集所占的权数。本文用分枝子集Bi在整个集合中所占的比重来计算权数Wi,然后计算出加权熵,通过比较加全熵的大小来选择属性的取值,改进的ID3算法基本步骤如下:

1)对属性X,假设X有V个属性值,对应的权数为W1,W2,…,Wv,以属性X为扩展,生成V个子结点(B1,B2,…,Bv),求对应的信息熵E(B1),E(B2),…,E(Bv);

2)计算加权熵E(X)*;

3)选择属性X使得选择E(X*)*,将X作为新选择的属性;

4)利用步骤1)的计算结果,建立结点X*的后继结点(B1,B2,…,Bv);

5)对所有的Bi,若Bi为叶子结点,则停止扩展此结点,否则递归执行步骤1)至步骤5),直至完成决策树的建立为止。

构造过程中,需要对决策树进行修剪,修剪采用两种方法,预先修剪和事后修剪,在构造某结点时,若该结点下的记录数在所有记录数中的比例小于0.1%时,则停止该子树的生长;当决策树生成后,根据前面关联规则生成的规则,若可信度小于30%时,则剪掉该树枝;当所有递归子集的运行状态全为流失时,则停止树的生长。

用ID3算法对客户流失问题进行建模时可以区分不同的流失客户的群组以及每一群组的潜在流失因素,使用ID3算法建立的决策树如图1所示。

从图中可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树最上面的根结点是整个决策树的开始。图中根结点是“在网时间>1年”,不同的回答产生“是”与“否”两个分支,每个分支要么是一个新的决策节点,要么是叶子。在沿着树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后到达一个叶子节点。

决策树建立之后,通过使用该预测模型可以得到每个用户的离网概率,设定离网概率大于0.7的用户有离网倾向,从图2中可以看出,在网时间超过1年,投诉次数不超过10次,话费连续2个月降低60%,不同呼叫次数不超过15次,话费结构中呼转金额>30%的用户离网率有83%,由此可以确定离网数据提取的sql查询语句为:

select*from cust_loss where completed_date<=add_month(sysdate,-12)

and complaints<=10 and pct_feedec>=0.6

and calls<=15 and pct_fectrans>0.3

模型建立以后,对其输出的结果会得到多个结果组群,还需要具有业务专长的人员和建模人员根据每个组群的特征对其中隐含的意义和合理性进行检查及诊断,对所得到的模型做出业务解释,找出潜在的业务规律,指导业务行为。

4 模型的评估与应用

4.1 模型评估

客户流失预测模型要求两方面的准确率:预测命中率、预测覆盖率。预测命中率是描述模型精确度的指标,是预测流失中实际流失的比例;预测覆盖率是描述模型普适性的指标,是实际流失中预测正确的比例。在此引入客户流失评价矩阵,如表1所示:

TP(True Positives):正确肯定的数目,将流失的客户预测为流失的数目;

TN(True Negatives):正确否定的数目,将正常的客户预测为正常的数目;

FP(False Positives):错误肯定的数目,将正常的客户预测为流失的数目;

FN(False Negatives):错误否定的数目,将流失的客户预测为正常的数目;

本模型应用于某移动通信公司的客户流失预测,从2009年5月前的历史数据中随机抽取了50000条客户记录进行建模(其中离网客户所占比例为46.2%,为建模的均衡性,增加了离网客户在训练集中的比例,实际离网比例较低),运用该训练集建立决策树预测模型,表2给出了预测模型对训练集的预测结果:

通过计算得到:预测命中率为96.88%,预测覆盖率为81.81%。

运用该模型对2009年5月的在网客户进行离网预测,随机抽取20000个客户作为检验集,不采取任何挽留措施,观测实际离网情况,检验结果如表3所示。

通过计算得到:预测命中率为70.02%,预测覆盖率为72.05%。

检验结果表明,模型的预测命中率与覆盖率比训练情况稍差,但依然保持了较好的预测性能。

4.2 流失客户特征分析

决策树中从根结点到叶结点都是某类客户的特征,因此分析所有从根结点到流失标示的叶结点的遍历过程,可以找出流失客户的特征。从生成的决策树结果中,可以分析出对市场营销有决策支持意义的结论,该模型中分析与“在网时间”相关的叶结点可得到如下结论:

1)影响客户流失的最关键因素是客户的在网时间,在网时间短的客户其流失比例较大,在网时间越长的客户越稳定,越不易流失;

2)对于在网时间小于1年,投诉次数大于10次的用户,流失概率是68%;

3)对于在网时间超过1年,投诉次数不大于10次的用户,流失概率是2.7%;

4)对于在网时间超过1年,投诉次数不大于10次,话费连续2个月降低60%,不同呼叫次数不超过15次,话费结构中呼转金额不超过30%的用户,其流失概率是67%;

5)对于在网时间超过1年,投诉次数不大于10次,话费连续降低小于40%,不同呼叫次数超过15次,呼转金额小于30%的用户,其流失概率为0,即该类用户不会流失。

5 结束语

客户资源是电信企业的生命,保留并巩固企业的客户资源对企业来说意义重大。本文提出基于数据挖掘算法的客户流失管理解决方案,充分发挥了数据挖掘技术面对海量数据的强大优势,科学的帮助电信运营商解决客户流失的商业问题。

客户流失预测模型的建立是数据挖掘技术在电信行业的一个较为典型的应用,通过对模型不断修正使之更加完备,结合相应的市场营销策略和客户服务,对挽留客户起到至关重要的作用。

参考文献

[1]刘蓉,陈晓红.基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件,2006,23(2):60-62.

[3]Alex Berson,Stephen Smith,Kurt Thearling.Building Data Mining Application for CRM[M].McGraw-Hill,2001:180~230.

[4]连建勇.基于数据挖掘技术的电信客户流失预测模型研究[D].中山大学,2008

[5]孙晓健.数据挖掘技术在经营分析系统中的应用[J].微计算机信息,2007,(12):175-177.

[6]汤效琴,毕利.数据挖掘中的软计算方法及应用综述[J].计算机与信息技术,2006,(11):68-71.

[7]贾琳,李明.基于数据挖掘的电信客户流失模型的建立与实现[J].计算机工程与应用,2004(04).

[8]Kim H S,Yoon C H.Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market[J].Telecommunications Policy,2004,28(9):751-765.

基于数据挖掘的电信行业客户流失管理研究 篇3

关键词:数据挖掘;聚类分析;决策树分析;客户保有

引言

现今,数据挖掘技术已经被广泛应用于实际的商业决策,解决如何在企业减少投资的同时提高资金回报问题。在美国,制造业、零售业、通讯业、金融业、保险业以及医疗服务等都已经较为成熟地掌握了数据挖掘技术,应用时间较长。在国内,随着市场经济的发展,数据挖掘也逐渐有了自己的市场,尤其是在电信业。近两年,电信业的经营观念已逐步从“以产品为中心”转变为“以客户为中心”,为此,了解现有客户的行为,分析客户的需求是非常重要的。通过数据挖掘技术,从电信公司大量的历史数据中挖掘分析客户消费的行为特征,并在市场预测的基础上制定有针对性的市场营销计划等,是电信服务业实现以客户为中心的服务目标的重要手段。

1数据挖掘技术

数据挖掘,又称为数据库中的知识发现,是一种从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的信息和知识的过程,其目的是从大量数据中寻找有用的信息。目前,数据挖掘技术有聚类、决策树、关联规则、神经网络、支持向量机等方法,它们通过机器学习的途径获取信息,以用于决策支持、预测、估计等领域。不同的数据挖掘方法具有不同的应用范围。在电信行业中,客户细分一般可用聚类方法,而针对客户流失预测及客户保有问题,采用决策树方法,相对来说,其结构和推理的过程更清楚。

1.1聚类分析

聚类是数据挖掘领域最为常见的技术之一,它将不同个体按相似度大小相近的原则聚集成类。相似度是根据描述对象的属性来计算的。距离是经常采用的度量方式。通过聚类过程形成的每一个组成为一个类。通过聚类,数据库中的记录可被划分为一系列有意义的子集,我们可以借此分析较大的、复杂的,连续有许多变量的数据库。应用在市场研究领域,聚类分析是市场细分、寻找不同目标市场及其人员特征的非常简单而又非常有效的方法。

主要的聚类方法大体上可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。K-均值算法是比较常用的算法,为经典的划分方法。算法描述如下:

算法1:k-均值聚类算法

输入:类的数目k和n个对象

输出:被标记聚类类别的n个体

方法:

(1)任意选择k个对象作为初始的类中心;

(2)根据类中对象的平均值,按相似性大小给每个对象(重新)赋予类标记;

(3)更新类的平均值以及类中心;

(4)若类中心不再发生变化,则输出,结束;否则转(2)。

1.2决策树分析

决策树是目前最常用的分类技术之一,它是类似于流程图的树结构,其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。决策树算法的核心思想是贪心算法,它以自顶向下递归的划分一控制方式构造决策树,即从树的根结点处的所有训练样本开始,选取一个属性来区分这些样本,该属性的每一个值产生一个分支,然后将此思路递归地应用于每个子结点上,直到结点的所有样本都区分到某个类中。

各种决策树算法之间的主要区别就是如何选择属性进行划分,以经典的决策树算法C4.5为例,它选择具有最高信息增益的属性作为待划分的属性:

设T是有t个数据样本的集合,假设有k个不同类,设T中的c类包含t个样本,任意一个样本属于类c的可能性为t/t。

设属性V具有互不重合的n个值,可以用属性V将T划分为n个子集,这里Ti中的所有实例的取值均为v。如果v选作测试属性(即最好的划分属性),则这些子集对应于由包含集合T的结点生长出来的分枝。设ti是子集Ti中c类的样本数。根据v划分的子集的熵或期望信息。

其中几项充当第一个子集的权重,且等于子集(即V值为vi中的样本个数除以T中的样本总数。熵值越小,子集划分的纯度越高。

将属性v作为划分属性所获得的信息增益。

根据此公式计算每个属性的信息增益,算法C4.5将具有最高信息增益的属性选作给定集合的测试属性,创建一个结点,并根据属性的每个值创建分枝。

2在电信行业客户保有中的应用

客户流失是电信行业普遍面临的问题,尤其是在市场饱和期,竞争异常激烈,客户具有更多的选择,争夺新客户入网的成本已经远远高于挽留现有客户的成本,从实际的业务角度来看,如何保有自己的客户,如何展开客户挽留的行动的问题已经迫在眉睫。

通过数据挖掘技术在大量的历史数据中进行挖掘分析:利用聚类分析技术进行客户细分,挖掘不同客户群的业务特征;利用决策树技术进行客户流失倾向预测,可以针对流失倾向较高的群体,并结合这些客户对应的客户群特征,采取有针对性的客户挽留策略。

2.1客户细分

细分是指将一个大的客户群体划分成一个个细分群,同属一个细分群的客户彼此相似,而隶属于不同细分群的客户则有不同的典型特征。客户细分主要涉及的数据挖掘技术为聚类分析。通过客户细分,能深刻理解不同客户群的典型特征,从而对客户总体构成有更准确的认识,对客户的服务和营销更具针对性。

在客户属性中,总费用是一个能反映出客户级别的属性,月总费用越高的客户等级越高,是应该特别珍惜的资源。但并不是等级低的客户就不值得关注了,相反,月总费用低的客户更有升高等级的潜力,同样值得关注。

运用马克威软件,对月总费用这一属性进行聚类,采用的是K-Means快速聚类法。对聚出的类(共9类)进行统计分析,结果发现,有的类包含客户太少,如1个,2个等。对这些类进行合并,不妨将这一个大类(原先标识分别为1、2、3、4)的标识设为0。再对此时形成的6个类进行统计分析,得出表1。可以清楚地看出92.33%的客户月总费用集中在88.62元左右。

2.2客户流失预测

通过数据挖掘建立流失预测模型,分析客户流失倾向即可在客户流失之前做出预警并给出量化指标衡量该客户流失可能性的大小。业务人员也可以根据每个客户的流失可能性对客户从高到低排序,找出流失倾向较高的群体,并结合这些客户对应的分群特征,采取相应的客户挽留策略,以进行更加精细的客户保有工作,提高客户挽留的成功率。

首先通过相关性分析,可以找出每一个客户属性与客户行为和客户流失概率之间的相关性。通过比较选择,删除那些和客户流失概率相关性不大的变量,可以减小模型的复杂程度,使建立的模型更加精确。其次在模型建立以后,需要用大量的数据对

建立的模型进行修正和检验。—个未经检验的模型如果被贸然推广使用,就有可能由于模型的不精确给应用项目带来损失。故在建模时通常会把数据分为两部分:训练集和测试集,训练集用于建模,而测试集用于验证模型,以避免模型出现“过拟合”的情况。

利用马克威分析系统,先采用每隔10条记录取一条的系统抽样法从248796例客户的大样本中抽出2488例客户作为样本,运用数据挖掘技术中的决策树方法对样本进行挖掘,以应收费用、欠费金额、在网时长作为输入变量,客户流失作为目标变量(其中0表示未流失,1表示流失),挖掘结果如图1所示。

从此决策树可以清楚地看出:如果应收费用在[-5.51,259.72]范围内,并且欠费金额在[-0.01,21.12]范围内,则客户流失的可信度为79.92%。在大样本下,通过以上记录条件进行选择得到:应收费用在[-5.51,259.72]范围内的客户有2488例,其中欠费金额在[-0.01,21.12]范围内有1803例,而在这1803例客户中有1424例流失,即有78.98%(=1424/1803)的客户流失,与用决策树方法得出的可信度之间的误差为0.94%。可见用训练集所建的预测模型能很好地对测试集进行预测,并且可以清楚地看出哪些客户容易流失。当然,为了能将模型应用到洞察力营销当中,还需要业务专家、市场营销人员等的参与,从业务上指导变量的筛选。

2.3客户保有策略

选择合适的目标客户群、确定有针对性的保有策略,是确保整个客户保有营销活动成功的关键所在。基于洞察力营销的客户保有是一个应用数据挖掘技术帮助企业构建更个性化并有更高利润的市场营销活动的过程。洞察力营销是一个闭环的自我学习过程(如图2所示)。

通过将客户细分模型与客户流失预测模型紧密结合,既能洞察各客户的业务特征,又能获取客户的流失倾向,便于市场营销部门选取流失倾向较高的客户采取针对性的保有策略,比如:针对流失倾向较高的近郊密切型客户:推荐本地亲情连线套餐,例如20元包打40元区间电话;针对流失倾向较高的传统长途型客户:传统转IP,释放风险,先推荐17909电信直拨,然后再推荐国内长途亲情连线;针对流失倾向较高的异商IP型客户:进行IP反争夺,推荐电信IP包月或保底套餐、分段折扣电信lP预付费卡;针对流失倾向较高的本地商务型(多与移动、联通用户通话)客户:要派客户经理直接上门挽留,推荐包月或保底套餐、预存话费送小灵通、小灵通彩铃免费送等。

3结束语

基于数据挖掘的电信行业客户流失管理研究 篇4

在全球电信业自由化与国际化的发展趋势下,各国电信业市场竞争日益激烈,而客户流失率一直处于较高水平。有统计数据显示,客户的流失使得企业不得不投入比老客户多5倍以上的成本去发展新客户[1]。对于身处激烈竞争的电信企业,如何保持保留住老客户,提前预测出潜在的流失客户,防止因客户流失而引发的经营危机,直接关系到企业的生存和发展,对于提高企业的竞争力具有战略意义。越来越多的电信企业将更多的精力从发展增量客户转移到维系存量客户上来。为了建立有效的客户流失预测模型,学者们提出过统计分析方法,该类方法能对客户流失的原因给予正确的解释,但建立分类预测模型时所需的多个假设和条件紧密相关,且要求样本数据有一定的规模。随着人工智能的快速发展,人工神经网络被广泛地运用到分类预测领域,它不仅具有非线性映射能力和泛化能力,而且还具有较强的鲁棒性和较高的预测精度。故本文尝试引入LVQ神经网络来构建电信企业客户流失预测模型。

1 客户流失的定义及分类

1.1 客户流失的定义

任何不明确的定义都会严重影响模型的准确和应用时的效果。对于客户流失,没有一个统一的定义。一般来说,客户停止使用原有的产品或服务,或转而使用竞争对手的产品或服务就认为该客户已经流失。客户流失研究需要对客户流失有个相对明确的衡量标准,在这个标准下才能从数据仓库中确定哪些是已经流失的客户。从数据角度定义,流失一般有两种表现,一种是主动注销,即客户要求注销账户;另一种是账户体眠,即在一段时间内客户的消费量或活动量为零。出现以上两种情况,则可以认为在此项业务上该客户已流失。另一种情况是,客户虽然没有停止使用某业务,但是使用量却大幅度下降,或者将高额套餐转换为低额套餐,这种流失具有一定的隐蔽性,但对企业的收入和利润也有较大的影响,需要企业的密切关注。

1.2 客户流失的分类

客户流失按照是否为客户的主观意愿,可以分为自愿流失和非自愿流失。非自愿流失是电信运营企业最大的一种客户流失类别,它是指客户由于欠费或是不履行合同等原因,电信公司终止对其提供服务,即终止服务是由电信公司提出的,不属于客户自愿。自愿流失是由客户的因素造成的流失,按照不同原因,一般又可以分为主观原因的流失和客观原因的流失。主观原因是指客户由于不满意目前的服务,或是竞争对手提供了更优质的服务,而主动提出停止目前正在使用的某项服务,客观原因则包括了客户的迁徙、死亡等等,对于电信企业来说,最重要的是预测出客户中由于主观原因造成的自愿流失倾向。由于客户流失原因的多样性,各种流失的表现也有所不同,因此很难找到一种能够预测所有流失的模型和方法,只能针对其中的一种流失加以分析和研究,建立一个能够正确预测该类流失的模型。

2 LVQ神经网络基本原理概述

学习向量量化(Learning Vector Quantization,简称LVQ)神经网络是在有教师状态下对竞争层进行训练的一种学习算法。与其他模式识别和映射方式相比,其优点在于网络结构简单,只通过内部单元的相互作用,就可以完成十分复杂的分类处理,也很容易将设计域中的各种繁杂分散的设计条件收敛到结论上来[2],克服了自组织网络采用无监督学习算法带来的缺乏信息分类的弱点,LVQ神经网络在模式识别和优化领域有着广泛的应用。

LVQ的基本思路是将高维输入空间分成若干不同的区域,在每个区域确定一个中心向量作为聚类中心,同一区域的输入向量可用该中心向量来代表,从而形成以各中心向量为聚类中心的点集。LVQ网络由三层神经元组成,即输入层、竞争层和输出层,如图1所示。输入层与竞争层之间为完全连接,而竞争层与输出层之间为部分连接。输出层每个神经元与竞争层神经元的不同组相连接,连接权值固定为1;输入层和竞争层间的连接权值须要建立参考矢量的分量,而且要求对每一个竞争层神经元指定一个参考矢量,在LVQ网络的训练过程中,它们之间的连接权值被逐渐调整为聚类中心。当一个输入样本被送至LVQ网络时,参考矢量最接近输入样本的竞争层神经元因获得激发而赢得竞争,允许其输出为“1”,其他竞争层神经元输出均为“0”,与获胜神经元所在组相连接的输出层神经元其输出也为“1”,而其他输出层神经元均输出“0”,输出“1”的输出层神经元给出当前输入样本的模式类。将竞争层学习得到的类称为子类,将输出层学习得到的类称为目标类。

LVQ网络各层的数学描述如下[3]:

设输入向量用X表示X=x1,x2,…xnT

竞争层的输出用Y表示Y=y1,y2,…ymT,yj∈(0,1),j=1,2,…,m

输出层的输出用O表示O=o1,o2,…olT

网络的期望输出用d表示d=d1,d2,…dlT

输入层到竞争层之间的权值矩阵用W1表示W1=w11,w12,…,w1j,…,w1m

其中列向量wj1代表第j个神经元对应的权值向量。

竞争层到输出层之间的权值矩阵用W2表示W2=w21,w22,…,w2j,…,w2m

W2的列表示目标类,行表示子类,LVQ网络在训练前预先定义好W2,从而指定了输入训练样本的目标类,网络的学习是通过改变W1来实现的。

3 研究样本的选取

建立客户流失预测模型必须要有一个已知是否流失的用户样本集。而客户流失的预测,就是用客户过去的数据来建模,预测客户未来的流失可能性,这可以借鉴时序预测中的时间窗口技术。时间窗口包括了数据窗口、间隔窗口和预测窗口,如图2。数据窗口是指用于建模的预测指标所取值的时间范围,预测窗口是指客户是否会流失所处的时间范围,间隔窗口是指数据窗口和预测窗口之间的间隔。间隔窗口的存在是为了使企业营销和业务人员在得到预测结果之后有时间去实施客户挽留。时间间隔长度的选择很有技巧,如果太长,会影响模型的预测准确率,而太短的话又会让市场营销人员无法及时做出反应。训练样本数据的采集应当注重时效性,因为不同阶段客户流失前的征兆会有所不同,建模时最好选择离预测时间较近的样本数据。

分类算法一般都假设样本分布是对称的,若算法在一个不对称分布的样本集上进行训练,绝大部分分类算法都会偏向样本数量大的非目标样本,从而很可能无法将这些比例极低的目标样本识别出来。而且由于目标样本比例极小,在模型评估的时候会出现“假象”,使一些效能很差的模型也被接受。为了从不对称分布的样本集得到一个对称分布的样本集,最常用的方法就是通过重抽样来调整样本集的构成比例,可采用减少多数法来调整样本比例。其核心思想是从样本量比较多的类别中除去数据特性差异性较大的样本数据,再通过抽样的方法从中选取部分具有类别代表性的资料,用以降低类别间的不对称性[4]。

4 预测变量的生成

预测变量(即模型的输入向量)用于在建模时作为自变量寻找与目标变量之间的关联。预测变量的选择应在资深业务人员的帮助下进行,这样才能选择出真正与客户流失可能性具有潜在关联的预测变量。预测变量可以直接从客户数据仓库中抽取,为了更好的反映客户消费行为变化的过程模式,有时也可以通过简单计算生成预测变量,我们称之为衍生变量。衍生变量主要包括三类:(1)趋势变量。通过计算观察某月相对其前一月的增长率得到;(2)均值变量。假设数据窗口设计为N个月,则一些指标可以取N个月的平均值;(3)比例变量。通过某一指标与另一相关指标的比值得到。

实际上,在众多的指标中,有些预测变量与客户流失的相关程度并不大,还有一些预测变量之间存在着较强的依赖关系,如果直接运用所有这些变量进行建立预测模型,可能得不到理想效果。这就需要对这些预测变量进行约简,找出与流失关系最密切的变量集。为了判断预测变量与客户流失之间以及预测变量之间的相关程度,可以采用皮尔逊相关系数来判别,一般认为,相关系数r<0.3就认为该指标与客户流失的相关程度较小,应予以剔除;相关系数r>0.8则表示两个预测指标显著相关,对r>0.8的两个指标仅保留其中的一个。将直接抽取和经过简单计算得到的预测变量作为备选预测变量,并用皮尔逊相关系数判别法选取最相关的变量作为构建预测模型的最终预测变量。

5 模型的训练及评估

5.1 模型的训练

将研究样本分为训练样本和测试样本,分别为n个和s个,以MATLAB R2010a神经网络工具箱为平台建立预测模型。输入层节点数为输入向量的维数即预测变量的个数,用m表示;竞争层节点数需要经过反复凑试,设为u个;输出层节点数为1个,“0”表示预测为流失,“1”表示预测为未流失。确定网络的拓扑结构后,对网络进行训练、仿真和检验。LVQ网络的优点是可以求得全局最优,而且不需要对输入向量进行归一化和正交化处理,只需直接计算输入向量与竞争层之间的距离,从而实现模式识别。模型训练步骤如下:

(1)将n个训练样本的数据和类别分别定义为向量P和向量C。

P=[]m×n;C=[]1×n;

(2)利用ind2vec函数将类别向量C转换为网络可以识别的目标向量T。

T=ind2vec(C);

(3)使用newlvq函数创建一个LVQ网络。

net=newlvq(minmax(P),u,[0.5,0.5])。

其中,minmax(P)表示向量P中元素的最大值到最小值的范围,u表示网络的竞争层神经元的数目;[0.5,0.5]表示在竞争层的权值中,50%属于第一类,50%属于第二类,即输入的训练样本中属于流失的占50%,属于非流失的也占50%,此时LVQ神经网络具有较高的训练效率;网络的学习速率和学习算法都采用系统默认值,分别为0.01和learnlv1。

(4)将向量P输入网络,通过train函数对网络进行训练,假设训练步数为b步。

net.trainParam.epochs=b;

net=init(net);

net=train(net,P,T)。

经过训练,网络的误差达到要求后,其权值是固定的,对于每个输入值,它都可以进行相应的分类。

(5)将向量P输入训练好的网络,利用仿真函数sim将网络判别结果输出为向量Y,并使用vec2ind函数将其转换为目标向量YC,对比向量C检验LVQ网络的判别能力。

Y=sim(net,P);

YC=vec2ind(Y)。

(6)将测试样本的数据及类型分别定义为向量P1和C1。

P1=[]m×s,C1=[]1×s。

然后,按照第五步的方法将向量P1输入网络,网络输出判别结果为向量YC1,对比向量C检验LVQ网络的预测能力。

Y1=sim(net,P1);

YC1=vec2ind(Y1)

5.2 模型评估

由于电信客户流失预测问题实质上就是分类问题,在构建客户流失预测模型后,需要对模型预测结果进行评估,看模型是否具备解决实际问题的能力和效能,这就涉及到评估方法的选择问题。常用分类评估方法有准确率、特异度、灵敏度、收益图、命中率、ROC曲线和提升图等。

用准确率作为分类模型性能评价指标,是目前最简便的评价方法之一,被国内外学者广泛采用[5,6,7,8]。准确率是分类器正确分类的检验元组所占的百分比,一般在测试集上评估。我们可以借助混淆矩阵进一步解释准确率的概念,混淆矩阵是分析分类器识别不同元组情况的一种有用工具。表1是一个关于流失预测问题的混淆矩阵,其中,真正是指分类器正确标记的正元组,用a表示;假正是指分类器错误标记的负元组,用c表示;真负是指分类器正确标记的负元组,用d表示;假负是指分类器错误标记的正元组,用b表示,则准确率可表示为(a+d)/(a+b+c+d),a、b、c、d的值可由第(6)步得到。若模型的分类精度达到我们预设的要求,则说明基于LVQ神经网络的电信企业客户流失预测模型构建成功,这样就可以利用该模型并结合时间窗口技术对客户的流失进行预测。当然,当我们选用不同的评价指标和评估原则时,就会有不同的相对“最优”的预测模型。

6 结论

本文尝试运用LVQ神经网络构建电信企业客户流失预测模型。LVQ网络的优点在于网络结构简单,只通过内部单元的相互作用,就可以完成十分复杂的分类处理,也很容易将设计域中的各种繁杂分散的设计条件收敛到结论上来,而且它不需要将输入向量进行归一化、正交化处理,只需要直接计算输入向量与竞争层之间的距离,从而实现模式识别,具有较好的发展前景。然而由于该方向的研究较少,还存在一些问题,如竞争层神经元个数、网络训练步数的确定等等,这些都值得我们继续研究和探讨。

参考文献

[1]邵兵家等.客户关系管理[M].北京:清华大学出版社,2010.

[2]董妍慧.论企业危机管理系统的构建[J].大连海事大学学报(社会科学版),2008,7(1):92-94.

[3]施彦,韩力群,廉小亲.神经网络设计方法与实例分析[M].北京:北京邮电大学出版社,2009.

[4]陈金波.面向电信CRM的数据挖掘应用研究[D].南京:东南大学,2006.

[5]夏国恩,陈云,金炜东.电信运营企业客户流失预测模型[J].统计与决策,2006,(10):163-164.

[6]S.Daskalali,I.Kopanas,M.Goudara,N.Avouris.Data mining fordecision support on customer insolvency in telecommunications business[J].European Journal of Operational Research,2003,(145):239-255.

[7]蒙肖莲,蔡淑琴,杜宽旗.商业银行客户流失预测模型研究[J].系统工程,2004,22(12):67-71.

基于数据挖掘的电信行业客户流失管理研究 篇5

1 Hadoop与Hive简介

1.1 Hadoop简介

Hadoop是参考Google相关技术而发展起来的开源分布式存储和计算系统。其核心部分是HDFS (Hadoop Distributed File System)和M/R (Map/Reduce)。HDFS是一个高度容错性的存储系统,M/R则是一个计算框架。一个M/R作业通常会把输入的数据集切分为若干独立的数据块,由Map任务以完全并行的方式处理。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。作业的输入和输出数据都会被存储在HDFS中,整个框架负责任务的调度和监控,以及失败任务的重新执行。

1.2 Hive简介

Hive是一个基于Hadoop的数据仓库分析框架。Hive定义了一种类SQL的语言——HQL,直接编译成M/R Jobs,对那些不熟悉M/R编程模型的用户很有帮助。Hive拥有元数据存储, 主要用于存储模式和统计信息, 这些在数据探索, 查询优化和查询编译中很有作用。

2 基于Hadoop和Hive数据仓库

2.1 Hive的特点

下面,我们对Hive的特点进行深入分析:

(1)存储方式。

Hive的数据格式由用户指定,加载数据的过程中,不需要进行数据格式的转换,因此,Hive加载数据只是将数据内容复制或者移动到相应的HDFS目录中。

(2)执行模块。

Hive架构于M/R框架之上,执行计划的灵活性较差,优化器选择很少。Join暂时只实现了Grace Hash Join, Map端的Group-by算法仅支持Hash Group-by, Reduce端的Group-by则只支持Sort Group-by。

(3)查询优化。

由于Hive还处于起步阶段,因而Hive查询优化器的功能并不强大,仅限于十几条转换规则。但随着Hive的不断发展和更新,实现更多的规则只是时间问题。

(4)索引。

Hive中没有索引,Hive中的查询都是通过暴力扫描整个数据来实现,因此访问延迟较高。但由于M/R的引入,Hive可以并行访问数据,对于大数据量的访问,即使没有索引,Hive仍然可以体现出优势。

(5)高可用与并行扩展性。

由于Hadoop的高可用性与易于并行扩展,直接导致Hive也具有此特性。Hive执行计划中,每一个M/R Job会把处理结果写到HDFS,即使Hive查询的执行中,某个节点出现故障,只需要重新调度执行该节点的任务即可,不需要重新提交查询。

2.2 基于Hadoop与Hive的数据仓库架构

基于Hadoop与Hadoop的数据仓库架构如图1所示,通过ETL工具,将各业务系统的数据装载到HDFS中,HDFS的高可用性保证了数据不会丢失。Hive构架于Hadoop平台上,利用HDFS来存储数据,并通过HQL,应用M/R进行来运算,快速地将数据反馈给上层的应用。上层应用,既可以通过Hive来操作数据,也可以直接开发基于M/R的应用程序,直接访问HDFS上数据。由于Hadoop平台的动态可扩展性,使得随着数据量的增加,数据仓库扩容,相比Oracle等传统关系性数据更方便,性能优越。

3 Hive在电信行业数据仓库中的应用

对于客户而言,一个方便快速的查询系统是了解自己消费记录的主要途径。对于运营商而言,客户消费产生的各类海量数据难以存储和进行分析。以某省电信运营商为例,该运营商有二千多万用户,一个月产生的话单以TB级别来衡量。目前,依赖传统数据库系统,已很难满足这种海量数据高速高并发的查询。

我们采集了一个月的语音话单,数据量达40亿,对其进行客户分群处理。在以前的Oracle RAC数据仓库中运行,耗时达3小时。而在等价格的硬件配置下的Hadoop和Hive平台上,耗时仅1小时,而且在Hive上未做任何性能的优化。另外,还测试了用户最近三月话单的查询,Oracle RAC平台耗时165s,而Hadoop和Hive平台仅耗时70s,这大大改善了用户的查询体验。

4 总结

Hive是一个可扩展性非常强的数据仓库架构,借助于Hadoop分布式存储计算平台和Hive对SQL语句的理解能力,为用户提供了一个高效、海量和便捷的数据仓库平台。

摘要:分析处理海量数据成为各电信运营商急需解决的问题。本文描述的基于Hadoop和Hive的数据仓库能很好的解决这个问题, Hadoop依靠普通的PC集群提供可靠的并行计算服务和存储平台, Hive基于M/R框架, 提供类SQL功能的HQL语言, 为用户提供了一个高效、海量和便捷的数据仓库平台。通过对电信行业海量话单的分析证明, 此数据仓库解决方案在处理海量数据上, 具有关系型数据仓库不能比拟的性能。摘要分析处理海量数据成为各电信运营商急需解决的问题。本文描述的基于Hadoop和Hive的数据仓库能很好的解决这个问题, Hadoop依靠普通的PC集群提供可靠的并行计算服务和存储平台, Hive基于M/R框架, 提供类SQL功能的HQL语言, 为用户提供了一个高效、海量和便捷的数据仓库平台。通过对电信行业海量话单的分析证明, 此数据仓库解决方案在处理海量数据上, 具有关系型数据仓库不能比拟的性能。

关键词:Hadoop,Hive,数据仓库,海量数据

参考文献

[1]程莹, 张云勇, 徐雷等.基于Hadoop及关系型数据库的海量数据分析研究[J].电信科学, 2010.

[2]潘文宇, 段勇.云计算在电信行业的应用研究[J].电信科学, 2010.

[3]谢桂兰, 罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用, 2010.

上一篇:建筑安全生产管理口号下一篇:我家的星期天初中记叙文