BP神经网络、SVM在个人收入预测中的应用

2022-10-09 版权声明 我要投稿

1.引言

个人收入是国家实际购买力水平的体现。改革开放以来, 中国居民收入稳步上涨, 但收入差距却越来越大, 对于个人收入影响的分析也成了研究的重点。从个人收入分配理论看, 影响收入分配差异的因素主要分为两个方面。一是内生决定收入因素, 即人力资本等内生变量;另一个是外生决定因素, 即制度和宏观变量。本文运用BP神经网络和支持向量机方法从内生决定因素来分析对个人收入的影响。

BP神经网络方法的整个信息传递过程为输入层到输出层的单向传递, 保证了网络输出向量与原训练样本中因变量数据之差最小, 目前已广泛应用于疾病诊断、基金股票的波动预测等研究中。支持向量机 (SVM) 是建立在统计学习理论之上, 专门用来针对处理样本量有限时的机器学习问题, 避免了BP神经网络中的局部最优的问题, 并且具有比BP神经网络更好的泛化能力, 已广泛应用于图像处理、个人信用评价等领域。人工神经网络和支持向量机算法在结构上类似, 但是功能应用和预测效果却有很大的不同, 研究这两个模型间的区别和联系, 将为不同情况下建立合适的预测模型提供理论依据。

2.BP神经网络与支持向量机对个人收入的预测

本文从内生决定因素分析个人收入的差异, 而非因家政策等外在因素。研究数据来源于南斯拉夫卢布尔雅那大学数据库, 样本中有15296 例数据, 其中删除了962 例有缺失值的数据。数据集中年收入小于等于50K的有11526个, 占总样本比例的75.4%。从年龄、性别、工作性质、教育程度、受教育年限、婚姻状况、职业、家庭关系、资本增益、资本损失、每星期工作小时数这11个因素分析个人收入差距。支持向量机模型选用的是默认的RBF函数, 而BP神经网络模型建立中输入节点数为11, 输出节点数为2, 隐含层单元数为10, 利用MATLAB工具箱中的newff和sim函数对样本进行训练, 通过训练后各个自变量的影响程度大小找出个人收入的影响因素, 然后通过预测准确率、均方误差MSE和决定系数R2来验证两个模型的预测效能。

训练后, 自变量影响程度大小排在前四位的依次是资本增益、受教育年限、每星期工作小时数和年龄, 这几个变量被判断为个人收入的影响因素, 不同程度的连接着输入层与输出层间的权重。如表1, 支持向量机对个人收入训练样本预测准确率为87.6%, 均方误差为0.08, 决定系数为0.14, 测试样本预测的准确率为85.3%, 均方误差为0.27, 决定系数为0.76。BP神经网络对个人收入训练样本预测准确率为85.1%, 均方误差为0.14, 决定系数为0.84, 测试样本预测的准确率为84.4%, 均方误差为0.32, 决定系数为0.71。可看出, 支持向量机对训练样本和测试样本进行预测的均方误差MSE的值都比BP神经网络小, 预测准确率和决定系数R2的值都要大, 说明相比之下SVM的预测误差更小, 拟合效度更好, 验证了支持向量机比BP神经网络具有更好的预测效能。

3.讨论

研究发现, 年龄、受教育年限、资本增益和每星期工作小时数是影响个人收入的因素。即年龄越大, 受教育年限越长, 资本增益越大, 工作时间越长的收入越高, 说明个人收入与自身的教育和经验投资是呈正比的。个人想要获得的收入回报也必须有同等程度的付出。

研究还证实了SVM、ANN都具有较好的预测能力, 且支持向量机算法的预测效能更强, 这为解决个体预测提供了一种新方法。但是, 在仿真测试中建立的预测模型主要从数据上反映发展变化趋势, 当相关参数变化时, 相应的仿真测试效果也会不同。而且模型中的训练样本和测试样本是随机的, 也会对预测结果造成影响。

摘要:改革开放以来, 中国居民收入稳步上涨, 但收入差距却越来越大。对于个人收入的分析也成了研究的重点。本文利用matlab R2012a建立了BP神经网络和支持向量机算法模型, 得到了两个模型在研究个人收入预测应用中总体预测准确率、均方误差MSE和决定系数R2的值。结果表明, 相比于BP神经网络, 支持向量机预测准确率更高, 模型拟合度更好, 具有更好的预测效能。

关键词:BP神经网络,SVM,个人收入预测

参考文献

[1] 张文彤, 董伟.SPSS统计分析高级教程[M].北京:高等教育出版社, 2012.

[2] 王莎.BP神经网络在股票预测中的应用研究[D].硕士学位论文:中南大学, 2008.

[3] 史峰, 王辉等.MATLAB智能算法30个案例分析[M].北京:北京航空航天大学出版社, 2010.

[4] 储蕾.基于BP神经网络和SVM的个人信用评估比较研究[D].硕士学位论文:上海师范大学, 2014.

上一篇:微课下的高职化学教学改革探讨下一篇:水利水电工程项目人力资源优化配置研究