数据挖掘论文提纲

论文题目：数据挖掘的后处理方法及其应用

摘要：大数据时代的到来不仅实时地影响着我们工作与生活,而且还推动了国家经济与社会发展等领域的技术大变革。数据收集的目的是根据需求从数据中提取有用的信息,并将其应用到具体领域中转变为知识,这就形成了数据挖掘这一新的研究领域。在非计算机学科领域,对于大数据应用往往停留在简单基础的数据挖掘模型,对数据挖掘算法的处理结果如何使用,计算机学科领域的研究通常较少关注;这就导致非计算机学科领域局限于对处理结果的认识不足,难以有效地将数据挖掘结果转化为切实可用的信息内容。最终导致大数据在特定应用领域的模型结构上普遍趋于简单化,在数据挖掘结果和实际应用之间出现断层。而该问题可以依靠数据后处理得到较好解决。本文针对挖掘结果和实际应用之间的断层问题,以数据后处理方法为研究对象。通过总结数据后处理领域的研究成果,分别从结构后处理和内容后处理两个角度来归纳数据后处理框架,并通过具体数据应用实例来与传统的数据处理方法作对比分析。论文的研究内容由以下两部分组成:（1）基于变换数据挖掘结果的结构,最终形成了新结构或者新的模型框架形式下的数据挖掘结果展示方式的后处理方法,本文提出了一种构建多粒度数据挖掘模式框架的理论方法。优化了可持续致贫原因分析模型（Sustainable Poverty Causes Analysis,简称SPCA）模型并基于此构建了一种多粒度的数据挖掘模型。以某平台上的数据为例,本文对如何提高数据的价值密度,如何分层递进地支撑精准扶贫减贫施策问题的知识库进行验证,实现了通过结构数据后处理来提升挖掘结果的可理解性方法。并将其与原SPCA模型的挖掘分析结果进行了比较,最终在可视化和量化两个方面上补充了原SPCA结构的不足,得到了更全面的分析结果。（2）基于优选数据挖掘结果的内容,最终形成了更具代表性、更简明扼要的数据挖掘内容的后处理方法,本文提出了一致性探测的过滤式特征选择方法,并将其用于该类后处理方法。该方法通过不一致程度来衡量特征重要性和依赖性度量计算相关系数等一致性度量方法。根据数据类内方差越小,该数据与分类就有越高的一致性原理;通过分析类内方差与总方差的比值来衡量不同类别上特征与目标分类分布的一致性。最后,将本文提出的一致性探测方法与现有的皮尔森相关系数法分别应用于MINST数据集的特征选择,并通过SGD算法对各自选择结果的分类准确性进行了比较,结果表明基于内容后处理的一致性探测方法比皮尔森相关系数法更能保留重要的分类能力。

关键词：大数据;数据挖掘;数据后处理;特征选择

学科专业：软件工程理论与方法

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 研究现状及应用

1.2.1 数据后处理的研究现状

1.2.2 数据后处理研究的不足之处

1.3 研究内容及组织结构

1.3.1 研究目标

1.3.2 研究内容

1.3.3 组织结构

第2章相关技术

2.1 大数据的概念

2.2 数据挖掘

2.3 数据后处理

2.3.1 数据后处理的概念

2.3.2 数据后处理的目的

2.3.3 数据后处理的类型

2.4 SLA框架与SPCA模型

2.4.1 SLA框架

2.4.2 SPCA模型

2.5 信息粒度原理

2.6 数据降维

2.6.1 特征选择

2.6.2 特征提取

2.7 本章小结

第3章一种基于结构后处理的多粒度模型

3.1 引言

3.2 数据的结构后处理

3.2.1 信息粒度变换

3.2.2 信息领域变换

3.3 应用场景实验

3.3.1 实验目标

3.3.2 实验数据集

3.3.3 信息形式转换

3.3.4 优化SPCA模型

3.3.5 多粒度SPCA模型

3.4 结果分析

3.5 本章小结

第4章一种基于内容后处理的过滤式特征选择方法

4.1 引言

4.2 内容上的数据后处理

4.3 过滤式特征选择方法

4.3.1 距离度量

4.3.2 信息度量

4.3.3 依赖性度量

4.3.4 一致性度量

4.4 基于内容后处理的过滤式特征选择方法

4.4.1 维度联合作用

4.4.2 马氏距离

4.4.3 地理探测器

4.4.4 一致性探测

4.5 应用场景实验

4.5.1 实验目标

4.5.2 实验数据集

4.5.3 实验内容

4.6 结果分析

4.7 本章小结

第5章总结与展望

5.1 论文总结

5.2 研究展望

参考文献

致谢

数据挖掘论文提纲

热门文章

相关推荐