论文题目:基于不平衡数据的保险购买预测研究 ——以商业养老保险为例
摘要:随着技术日异月新的发展,“大数据”时代已经逐渐来临。对于保险公司来说,如果能够利用数据挖掘技术在海量的目标客户中寻找到高价值客户,将会对公司的业务发展产生重大意义。一般来说,在海量的目标客户中,有价值的客户远少于没有价值的客户,此时客户数据集是类不平衡的。那么如何从不平衡的目标客户中寻找出高价值客户对保险公司来说已经成为了重要的问题,解决好这个问题不仅可以转变保险公司传统的营销模式来提高业绩,而且还能促进保险行业的发展。本文主要研究基于不平衡数据的商业养老保险购买预测问题。首先,根据2017年的中国综合社会调查(CGSS)选取用于本文的研究数据,并对数据进行预处理工作。以商业养老保险为研究对象,描述了商业养老保险在性别、年龄、个人年总收入、受教育程度、身体状况、户口等角度下的分布状况。利用假设检验的方法判断选取的影响因素与商业养老保险购买之间是否存在显著性差异,从而确定模型的输入变量。然后从抽样和算法两个方面处理不平衡问题,利用四种不同的方法建立模型,达到预测居民是否购买商业养老保险的效果。采用的方法分别为基于SMOTE方法的决策树模型、代价敏感决策树模型、代价敏感支持向量机模型以及Adacost模型。通过各类模型效果的比较,四种方法均较好地解决了不平衡问题,能够有效识别出购买保险的客户,并且在测试集上取得了较好的效果。其中Adacost模型的效果最为理想,具有实际应用价值。同时,根据代价敏感决策树模型和Adacost模型中的变量重要性大小,论文给出了影响居民购买商业养老保险的主要因素,对保险公司进行商业养老保险客户的识别具有指导作用。
关键词:客户识别;不平衡数据;决策树;支持向量机;Adacost
学科专业:应用统计(专业学位)
中文摘要
英文摘要
1 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容与技术路线
1.4 主要创新与不足
2 不平衡数据方法介绍
2.1 不平衡数据分类问题
2.2 不平衡数据处理方法
2.2.1 数据重采样
2.2.2 代价敏感学习
2.3 不平衡数据分类评价指标
2.3.1 混淆矩阵
2.3.2 常见评价指标
2.3.3 ROC曲线以及AUC
3 数据预处理与探索
3.1 数据来源
3.2 数据预处理
3.2.1 变量重命名
3.2.2 缺失值处理
3.2.3 异常值处理
3.2.4 数据变换
3.2.5 数据预处理结果
3.3 数据探索
3.3.1 描述性分析
3.3.2 假设检验
4 构建保险购买预测模型
4.1 基于SMOTE抽样方法的决策树模型
4.1.1 SMOTE抽样方法介绍
4.1.2 决策树算法介绍
4.1.3 基于SMOTE抽样的决策树建模
4.2 代价敏感决策树预测模型
4.2.1 代价敏感决策树算法介绍
4.2.2 基于代价敏感决策树的保险购买预测模型
4.3 代价敏感支持向量机预测模型
4.3.1 支持向量机
4.3.2 代价敏感支持向量机
4.3.3 基于CS-SVM的保险购买预测模型
4.4 Adacost预测模型
4.4.1 Adacost算法介绍
4.4.2 基于Adacost的保险购买预测模型
4.5 不同模型的比较
5 总结与展望
参考文献
致谢
推荐阅读:
生育保险论文07-12
存款保险制度论文07-16
财产保险毕业论文07-08
人身保险合同纠纷论文09-26
保险产品创新研究07-23
养老保险制度研究09-10
社会保险征收问题研究07-23
中国医疗保险研究会06-28
中国新型农村社会养老保险制度研究06-14
我国政策性农业保险发展问题研究06-21