论文题目:基于医疗数据的文本挖掘研究与实现
摘要:随着互联网信息技术的突飞猛进,临床医学相关的文本资料数量在网络上激增,医疗文献记载了大量相关研究领域的学术成果,为从事医学研究的科研人员提供了大量有价值的参考。这些医疗文献所记载的知识信息大多是半结构化和非结构化的数据格式,不利于科研人员快速查询所想学习的知识,若采用传统的人工方式去整理信息定会占用人们很多的精力;后来逐渐使用机器学习的方法进行文本挖掘,但是运用浅层模型对文本语句进行向量表示的能力有限,所以导致模型最终的挖掘效果也受到了一定的限制。因此,为了推动医学领域的文本挖掘更进一步迫切需要一种高效的文本挖掘方法。随着近年来硬件设备的升级换代,计算机的性能尤其是算力方面得到很大的改善,加上深度神经网络相关算法的不断提出,学术研究者们在语音识别、图像处理和文本挖掘等任务上运用深度学习相关的算法都取得了不错的研究进展。因此,本研究将以糖尿病为研究对象,利用文本数据挖掘技术中命名实体识别和关系抽取的方法从糖尿病医学文本数据中高效识别并抽取出医疗实体及它们之间的关系,利用图数据库对抽取出的医疗信息进行存储,同时搭建可视化查询系统,成功完成了非结构化文本数据的结构化转变。通过糖尿病知识图谱查询系统的构建可以提高科研人员或医务人员对糖尿病相关知识的查询获取,这对糖尿病的预防和诊治工作提供了巨大的帮助,也为其他领域的文本挖掘研究提供了技术参考。本文主要的研究内容有以下几点:1.提出XLNet-Bi LSTM-Attention-CRF模型对糖尿病相关医学文献进行命名实体识别。首先从文本结构和语言特点的角度对糖尿病相关医学文献进行分析,把命名实体识别任务当作序列标注任务来处理,另外根据模型训练需求构建了糖尿病医学信息语料库。其次,在命名实体识别常用模型Bi LSTM-CRF的基础上,引入预训练模型XLNet对文本语句进行向量化表示,更好地结合上下文的语义信息,充分解决一词多义等问题;通过引入Attention机制,可以让模型对长文本训练语料中的语义特征信息更加充分的提取。通过实验对比,结果表明本研究提出的模型在糖尿病医学文本命名实体识别上优于其他基准模型。2.提出XLNet-Bi GRU-Attention-Text CNN-Softmax模型充分挖掘糖尿病医学文本中医学实体之间存在的关系。首先将糖尿病文本语句输入进XLNet模型,模型利用内部的Transformer-xl模块和相对位置编码机制对文本语句进行编码表示,从而捕捉到更加全面的特征信息;接着采用Bi GRU模型提取上下文特征信息并输入给融合Attention机制的Text CNN模块有选择性的抽取特征;最后,为了优化模型的训练,降低关系类别标签不均产生的影响,本研究选用标签平滑交叉熵作为损失函数进行模型调优。通过设置4种不同关系抽取模型的实验进行比较,验证了该糖尿病关系抽取模型可以获得较高的准确率、召回率和F1值。3.利用Spring Boot框架和Vue框架实现了糖尿病医学知识图谱查询系统的设计与实现。本研究将识别抽取出的15种医学实体和10种医学关系生成csv文件,同时选取合适的数据导入方式将糖尿病知识存放入Neo4j图数据库中。由于图数据库在数据存储、检索和处理等方面上有较强的能力,所以运用Spring Boot框架和Vue框架搭建了糖尿病知识图谱查询系统,该系统的成功搭建可以进一步帮助医疗工作者和科研人员快速便捷的查询糖尿病相关的医学知识并进行可视化分析,对糖尿病的预防、诊治有重要的帮助。
关键词:糖尿病医学知识图谱;命名实体识别;关系抽取;XLNet;Neo4j图数据库
学科专业:控制工程(专业学位)
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 医学知识图谱研究现状
1.2.2 医学命名实体识别研究现状
1.2.3 医学关系抽取研究现状
1.3 本文的研究内容
1.4 论文的组织结构
第二章 相关理论与技术
2.1 长短时记忆网络
2.2 门控循环单元
2.3 条件随机场
2.4 注意力机制
2.5 卷积神经网络
2.6 预训练语言模型
2.6.1 GPT
2.6.2 BERT
2.6.3 XLNet
2.7 知识图谱构建及可视化工具
2.7.1 知识图谱构建流程
2.7.2 Vue框架
2.7.3 Spring Boot框架
2.8 本章小结
第三章 基于XLNet的命名实体识别
3.1 基于XLNet-Bi LSTM-Attention-CRF的实体识别模型
3.1.1 XLNet模型理论
3.1.2 XLNet-Bi LSTM-Attention-CRF模型结构
3.2 数据与评价指标
3.2.1 数据集介绍
3.2.2 标注策略
3.2.3 数据预处理
3.2.4 评价指标
3.3 实验与分析
3.3.1 实验设置
3.3.2 实验过程及结果分析
3.4 本章小结
第四章 基于XLNet的关系抽取
4.1 基于XLNet-Bi GRU-Attention-Text CNN的关系抽取模型
4.1.1 模型理论
4.1.2 模型结构
4.2 数据与评价指标
4.2.1 数据预处理
4.2.2 标注策略
4.2.3 评价标准
4.3 实验与分析
4.3.1 实验设置
4.3.2 实验过程与结果分析
4.4 本章小结
第五章 糖尿病知识图谱的存储与可视化
5.1 知识图谱存储
5.1.1 Neo4j数据库介绍
5.1.2 糖尿病知识图谱存储流程
5.2 糖尿病知识图谱查询系统需求分析
5.3 系统的总体架构设计
5.4 系统的功能实现与展示
5.4.1 系统功能实现
5.4.2 系统功能展示
5.5 系统测试
5.5.1 系统兼容性测试
5.5.2 系统功能测试
5.6 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢