对企业电力征信大数据的价值挖掘和应用研究

2022-05-12 版权声明 我要投稿

摘要:针对传统电力征信系统稳定性不足、测试准确度低等缺点,本研究设计出一款大数据电力征信平台。本平台基于大数据云平台技术对电力监测系统进行设计与改良,针对系统硬件的改良运用了新型模块化结构;通过服务创新的网络架构对平台网络层进行整合;利用综合型大数据算法对电力信息数据进行分类与决策处理。经实验表明,本研究不仅增强了系统的稳定性,还提升了系统的准确度,在测试过程中准确度高达98.9%。

关键词:大数据模型;电力征信;综合算法;网络架构;系统测试

引言

中国是全世界唯一一个实现全民通电的国家[1-5]。在高速发展的今天,电力成为一种不可或缺的资源,我国的电力消费一直秉承着“先使用后付款”的收费方式,但在用户拖欠电费、违约用电方面,却没有一个很好的解决方案[3]。电力征信的应用能够有效约束信用不良的用户,减少违约用户的产生,提升供电公司的管理水平。

文献【1】设计基于九项指标的电力征信检测平台,通过对用户的用电量、用电缴费情况和违约用电记录等指标对客户进行分类,增加管理条理性,但数据采集方式过于老旧,没有正确建立用户的用电模型。文献【2】提出利用大数据平台对电力征信用户数据进行提取与处理,这一做法能保证用电用户的数据分析的客观性与准确性,但系统稳定性却没有得到保证。本研究针对电力征信平台与网络结构进行创新,设计新型大数据电力征信服务平台,基于平台稳定性与预测准确性进行优化。

电力征信服务平台的创新大数据电力用户分析模型

在大数据模型技术中,联机分析法是数据分析的主要方法,通过联机分析法,大数据信息能够在信息平台上进行多维传播[6]。将联机分析法运用到电力征信领域,通过大数据对电力客户的用电行为进行收集与分析,以此为电力企业的供电计划的准备提供便利[7-10]。用电数据处理简易流程如图1所示。

如图1所示,首先对用电客户的数据进行提取,将用电客户的信息行为进行分类,分类之后将分类数据进行记录的同时对客户信息进行行为分析,最终审核信息是否有遗漏或者错误的地方,如果有则需要对数据进行再一次的提取。传统记录主要提取客户的九类数据,本研究针对用户的数据分析,将数据提取分为四大类,八小类,使得数据处理更加条理化,也能加快数据搜集工作的开展与完成。对于数据收集的分类如图2所示。

如图2所示,将数据收集分类为客户行为、费用细则、客户价值与个人信用四大类,在另一种含义上,还可以将上述数据信息分为用电情况、费用情况、信用情况与客户评价,为了表达的方便,以“客户行为、费用细则、客户价值与个人信用”进行说明。然后再将客户行为细分为该客户月度、季度、年度用电量与用电规律,将费用细则分类为客户的缴费情况和预付费用情况;将客户的价值分类为未来客户用电情况的预估;针对客户信用方向则记录客户欠费情况与缴费是否及时,通过此四项数据的采集,能够完整的构建客户的用电模型,为未来电力分布、企业管理和客户信用进行综合分析。

将以上几类进行分析处理时,还可用分析结果将客户群分为尊贵客户、普通客户、风险客户和失信客户,针对不同的客户提供不同的处理方式,同时对客户的分类能进一步加强电力企业对客户的管理力度,对电力企业的绩效分析起到促进作用[11]。

模块化设计的创新

传统电力征信大数据平台通过模块化的设计将硬件进行组合,但这种模块化设计在数据处理过程中出现错误数据的概率大于需求的概率阈值[12]。因此,传统数据采集过程中需要分配人力资源去对数据进行预先审查,这一过程中人力耗费与时间耗费巨大,且人工审核的准确率也无法达到预期值[13]。因此根据这一缺点,本研究在传统模块化的基础上进行优化创新,主要将数据采集与网络模块进行交互,使得网络数据能够对采集到的数据进行校正;将设备管理模块中的硬件检测部分应用于数据分析中,增加数据分析的速度,提升数据分析的效率[14];在用户交互模块中,添加软件后门进行二次开发,便于及时应对电力资源需求变化过快的情况,增加系统稳定性[15]。系统模块化设计如图3所示。

真实的业务服务[11-17]。同时在数据计算方面采用专门针对电力信息分析的综合型算法,通过综合型算法得到客户的电力使用模型,将此模型通过数据接口应用于用电客户,也就是用电相关的企业客户,为他们提供良好的用电方案与维护方案。本研究所设计的平台整合了电力信息接入、客户数据分类治理、客户模型搭建与模型分析展示等功能,集成了多图形的可视化建模界面与二次开发接口拓展[18]。整体网络架构图如图4所示。本研究所用电力征信管理平台的创新为针对硬件方面的模块化创新,其中数据存储方面为固定存储,当网络模块检测到错误数据时,可通过数据存储模块中存储的同类数据进行替代,针对替代数据进行分类,在实验中可以明显发现,此方法虽然在一定程度上产生误差,但是其对结果的影响远没有输入错误数据造成的误差大,因此本研究针对模块化设计的创新拥有着技术优越性。在网络架构中,对数据进行过滤,主要通过对数据的筛选与关联数据的整合,将用电数据通过表格和饼状图等可视化视图直观的展现出来。数据过滤如图5所示。

面对传统电力征信大数据平台的功能与优缺点,本研究改进大数据网络架构,对电力征信平台网络结构进行重新建造。下文将从平台基本架构与平台网络结构两部分对本研究系统的创新点进行讲解。

大数据网络的创新点网络架构的创新

本研究所设计的平台从电力行业的基础出发,与目前主流的大数据技术框架相吻合。针对传统电力征信平台计算准确度不足、电力征信大数据分析系统对数据分析客观性不够的缺点,本研究通过对电力征信网络架构进行重新整合,将数据监测与营销分析、运行管理等作为服务层,面向电力企业提供在图5数据过滤中,针对源表,即客户表的信息,可以选用用户表作为基础,将用户表分解为区域表和设备表,区域表记录一个区域间的用电数据,将不同区域进行对比,能够很直观的看出区域与区域间的用电情况差距,设备表主要记录电流与电压的监测表,通过电流与电压的变化去预测用电量的变化趋势。具体源表图如图6所示。

要注意K值的选择之外还要考虑点与点的距离的计算,给定两个电力信息的数据点(x1,y1)与(x2,y2),则这两点的距离r的计算公式为:r=(1)通过公式(1)可以算出二维平面内点与点的距离,但电力信息一般为多维度的数据,因此我们需要将距离计算的公式拓展到多维空间,即:r(x,y)=å(x-y)2(2)

综合型算法的创新

针对本研究所设计的电力征信平台网络结构,设计一种对数据将数据进行分类、聚类、回归与集成的算法,即为本设计创新的综合型算法[19]。对数据的处理,给定一个电力征信平台的客户信息集,首先由分类聚类算法将此信息集分为用电情况、费用情况、信用情况与客户评价四大类,这里采用大数据分类KNN算法[20-24]。K值的选取根据电力信息数据集的规模不同而改变,比如一个区域内用电度数与用电时间的不同,K值也会根据其不同而变化,在K值的选择上我们通过交叉验证的方式,即将不同的样本集交iiiii=1当我们将K值确定与电力数据集点间距离计算完成后,就能根据电力征信系统进行数据的分类,将数据分为上文所述四大类后,下一步即是数据的决策,通过数据的决策来将分类后的信息进行处理,这里我们给定电力征信数据集为D,则计算电力征信分类数据集D的两个Gini系数,对电力征信数据集中的每一个用电客户数据A,都有a1,a2,a3三种分组,对三种分组进行处理,得到该电力征信系统数据的不同集合。

Gini(D,A)=a1Gini(a)+a2Gini(a)叉起来去验证K值的方差,从而求得最佳的K值,K值交叉验证图如图7所示。

AAa3Gini(a)(3)A36050403020100102030405060K值从图7中明显可以看出,随着K值的增大,误码率由高向低变化,当K值大于10如公式(3)所示,Gini指数Gin(i,D)指代不同分组的情况下电力征信客户数据A在整体电力征信数据集合D中的关联集合。再假定将电力征信客户数据分为N个类,测试客户数据中的任一随机数据属于第n类的概率为Pn,则针对电力征信客户模型分类概率因素的gini指数如公式(4)所示:nn2nnn之后,误码率开始变高,所以K值的选择要n=1n=1选择样本所能承受的最佳K值。此算法除了在公式(4)中,通过给定区域内客户。

上一篇:探讨事业单位绩效考核与薪酬管理问题下一篇:中小企业库存管理中存在的问题及改进的途径