档案数字化论文提纲

论文题目：数字化档案关键信息提取系统的设计与实现

摘要：近年来,随着计算机技术、光学字符识别技术的发展,数字化档案以其低廉的成本、较强的可管理性、高效的资源共享能力,成为了一种新型而热门的信息媒介。然而,当前数字档案总量飞速增长,档案数字化技术却仍然停留在简单的人工进行的档案照片扫描、加工、处理层面,不仅加工成本很高、效率低下,而且无法识别档案的具体信息,十分不方便对档案关键信息的搜索及进一步处理。另一方面,数字化档案数量众多、类型丰富、格式差异大,对其应用目前流行的关键词提取算法时,难以找到合适的语料库来进行训练,提取效果较差。如何使档案管理系统准确识别档案并筛选、过滤档案的关键信息成为了档案数字化技术进一步发展的一个重点问题。本文针对这一难题,提出了一种基于模式匹配的档案类型识别和切分算法,以及结合主题模型与Text Rank的数字化档案关键信息提取算法,并在此基础上设计并实现了数字化档案关键信息提取系统。图片类型识别和切分算法首先使用Open CV技术对档案图片进行预处理和去噪,接着根据不同档案的特征智能识别档案类型,最后对不同类型的档案进行切不同粒度的切分。关键信息提取算法接受档案文本,对其进行过滤、分词、去停用词、词性筛选后,将它们作为源数据集训练主题模型,得到文本集的文档主题概率分布和主题词概率分布,接着运用这两个概率分布修改Text Rank的迭代公式并构造词图进行迭代,提取出档案文本的关键词。对主题模型聚类出的类,算法采用Word2vec计算词相似度来进行聚类命名。最后,对除关键词外的其他关键信息,如标题、作者、文号等,算法采用模式匹配的方法进行提取。数字化档案关键信息提取系统采用MVC三层架构,并分为两个模块:档案图片切分识别模块以及关键信息提取模块,档案切分识别模块对档案图片进行切分并使用Tesseract-OCR引擎进行识别,传输给关键信息提取模块提取档案的关键词。本系统在经过测试并投入使用后,达到了预期结果,节约了档案数字化时耗费的人力物力,提高了数字化档案关键信息提取的准确率。

关键词：档案数字化;关键词提取;主题模型;TextRank;图片识别

学科专业：工程硕士（专业学位）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状分析

1.2.1 OCR技术

1.2.2 关键词提取技术

1.3 论文研究内容

1.4 论文组织结构

第二章关键信息提取系统关键技术

2.1 OpenCV

2.2 Tesseract-OCR

2.3 文本预处理

2.3.1 Jieba分词

2.3.2 去停用词

2.4 关键词提取

2.4.1 TextRank

2.4.2 TF-IDF

2.4.3 基于主题模型的算法

2.5 本章小结

第三章档案图片切分及关键信息提取算法设计与实现

3.1 档案类型识别及图片切分算法

3.1.1 档案格式转换

3.1.2 档案类型识别

3.1.3 档案图片预处理及切分

3.2 结合主题模型与TextRank的关键信息提取算法

3.2.1 文本预处理

3.2.2 主题模型参数配置及训练

3.2.3 结合主题模型与TextRank的关键词提取

3.2.4 基于Word2Vec的聚类主题命名

3.2.5 其他关键信息提取

3.3 本章小结

第四章关键信息提取系统需求分析与设计

4.1 系统需求分析

4.1.1 数字化档案关键信息提取系统业务陈述

4.1.2 数字化档案关键信息提取系统需求建模

4.1.3 数字化档案关键信息提取系统非功能性需求分析

4.2 系统设计

4.2.1 系统架构设计

4.2.2 系统功能分解

4.2.3 系统数据库设计

4.2.4 图片切分识别模块设计

4.2.5 关键信息提取模块设计

4.3 本章小结

第五章关键信息提取系统实现与测试

5.1 系统实现

5.1.1 系统开发环境

5.1.2 系统实现

5.2 系统测试

5.2.1 系统测试环境

5.2.2 系统功能性测试

5.2.3 系统性能测试

5.3 本章小结

第六章结束语

6.1 论文工作总结

6.2 后续工作展望

参考文献

致谢

1. 基本情况

2. 教育背景

3.2 参与科研项目及获奖

档案数字化论文提纲

热门文章

相关推荐