生物医学展望论文提纲

2022-11-15 版权声明 我要投稿

论文题目:肝癌领域精准医学语料标注

摘要:伴随着精准医学时代的到来,如何从海量的数据中快速准确的抽取有价值、可用性的信息成为相关研究者面临的困难,也是提高生物医学科研效率以及寻求临床诊断可靠证据的重要途径。为解决这一困境,生物医学领域的命名实体识别和语义关系抽取等文本挖掘技术得以快速发展。而语料库构建作为文本挖掘技术的基础和关键环节,其作用日益凸显。已有研究表明语料库对于提高相关技术识别的准确率尤为重要,语料库的短缺成为限制文本挖掘快速发展的瓶颈之一。针对当前生物医学语料库涵盖实体种类少、实体关系相对简单,难以满足精准医学知识库发展需求的问题,本研究以比较毒物遗传学数据库(The Comparative Toxicogenomics Database,CTD)中肝癌相关的文献作为标注文本,构建肝癌领域精准医学语料库,探索语料标注规范,以期能够对精准医学命名实体识别及语义关联抽取研究提供可靠的数据支撑,解决目前可用标注语料库短缺的问题。本文的内容将围绕以下几个部分展开:第一部分介绍了本研究选题的背景情况和技术发展状况,指出了本文研究的理论和现实意义,并且提出了研究目标、内容、方法和技术路线。第二部分对当前命名实体识别语料库、本体等研究现状进行了系统分析和描述,同时对研究的工具和方法进行了筛选。第三部分详细阐述了语料标注的整体流程,主要包括待标注文本的筛选、标注工具的准备、标注规范的制定和优化、命名实体和实体关系标注过程、预标注问题总结等方面。第四部分对标注结果进行了详细展示,包括Brat手工标注工具最终的输出结果的解读、标注结果统计情况以及手工标注与PubTator自动标注结果对比分析。第五部分总结了本研究中比较重要的标注规范,包括明确标注对象、复合名词的标注、蛋白质与基因的标注、全称和缩写的标注等。第六部分总结本研究所做的工作,展望本研究标注规范可能的应用以及基于领域本体的语料标注研究的发展景。本研究参照现有语料库构建过程,制定初期语料标注规范,并在预标注阶段逐步完善标注规范。同时语料库构建过程中首次采用了包含患者表型、疾病、化学物质与药物、细胞机制、分子机制、遗传机制6个维度知识模型的精准医学本体,涉及实体类型更加广泛,定义的实体关系更加丰富,为本语料库的高质量提供保障。本研究最终完成了对10045个命名实体和2489个实体间关系的标注工作。提出了标注文本的筛选流程及标注规范的制定方案,并总结了大量命名实体和实体关系标注的典型示例,可对其他生物医学语料库构建任务提供有价值参考。本研究主要采用手工标注,成本较高,不适用于构建大规模语料库。但手工标注语料库被视为“金标准语料库”,标注质量远高于自动标注语料库。在以后的相关研究中,可将本研究手工构建的语料库作为“种子”,以此为基础,利用一个或多个监督分类器,自动地迭代扩大标注语料库。

关键词:肝癌;精准医学;语料标注;本体

学科专业:军事预防医学

摘要

Abstract

1.前言

1.1 研究背景与意义

1.2 研究内容

1.3 研究方法与技术路线

2.国内外研究现状

2.1 生物医学命名实体语料库

2.2 电子病历命名实体语料库

2.3 生物医学相关本体与医学主题词表

2.3.1 基因本体

2.3.2 MeSH

2.3.3 UMLS

2.3.4 精准医学本体

2.4 语料标注方法

2.4.1 手工标注

2.4.2 自动标注

2.5 语料标注工具

3 语料标注

3.1 待标注文本筛选

3.2 Brat标注工具准备工作

3.2.1 Brat工具安装

3.2.2 数据导入

3.3 标注规范的制定流程

3.4 命名实体和实体关系标注

3.4.1 命名实体标注

3.4.2 实体关系标注

3.5 Brat工具语料标注的基本流程

3.6 .预标注问题总结

3.6.1 命名实体类型未定义

3.6.2 存在嵌套结构的实体标注

3.6.3 实体间关系存在方向性

3.6.4 实体间关系未定义

4.标注结果

4.1 Brat工具标注结果输出与解读

4.2 标注结果统计

4.3 与Pubator自动标注结果对比

5.肝癌领域精准医学语料标注规范

5.1 明确需要标注的对象

5.2 标点符号标注规则

5.3 冠词以及表示数量的词语不标注

5.4 实体名称未紧靠在一起的复合词标注

5.5 基因和蛋白质的标注

5.6 全称和缩写的标注

6 结论与展望

6.1 研究结论

6.2 研究不足

6.3 后续工作和研究展望

参考文献

附录A 210篇标注文本题录信息

主要简历

致谢

上一篇:船舶融资租赁交易论文提纲下一篇:生态危机循环经济论文提纲