数学科技论文提纲

2022-11-15 版权声明 我要投稿

论文题目:基于公式解析和词嵌入的英文科技文档检索研究

摘要:随着科学技术的迅猛发展,人们对于科技信息交流的需求日益迫切和多样化。由于科技文献富含形式化内容的特点,传统的全文检索方式已无法满足科技工作者的实际需求,实现基于科技文献中的形式化内容如数学表达式等来获取科技信息成为亟待解决的问题。通过对科技文档中数学表达式结构的分析和英文科技文档中词语语义的归纳,面向科技信息检索的实际需要,针对传统基于数学表达式的科技文档检索方法难以满足实际需求的问题,研究与设计一种适应公式复杂结构与词语语义问题的英文科技文档检索模型。首先,从数学表达式和关键词这两个表达科技文档查询需求出发,对科技文档进行数据预处理,前者包括数学表达式提取、解析和索引的构建,后者则通过关键词自动提取算法对英文科技文档中的词语进行提取,并计算关键词在文档中所占的权重值;其次,利用公式描述结构法在处理复杂表达式结构时的优势,消除由一般运算数引起的匹配干扰问题,实现基于数学表达式的科技文档检索;最后,引入深度学习中的神经网络分布式表示——词嵌入模型,并针对科技文档特点对其进行优化,通过将查询关键词和所提取的文档关键词同时转换为词向量,增强词语间的关联性,实现基于词嵌入的科技文档检索结果排序。采用NTCIR公共数据集中的38,165篇英文科技文档对所提出方法进行了实验,结果显示在引入词嵌入模型后查全率和查准率为分别为0.77和0.63,相较于只利用数学表达式结构信息的检索方法有所提高,表明本方法能够更有效的满足用户多方面查询需求。

关键词:科技文档检索;数学表达式;语义相关性;公式描述结构;词嵌入

学科专业:工程硕士(专业学位)

摘要

abstract

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 数学表达式检索

1.2.2 词嵌入模型

1.3 研究内容及主要工作

1.4 本文组织结构

第二章 科技文档检索特征提取与索引构建

2.1 数学表达式提取与解析

2.1.1 科技文档中数学表达式的描述方式

2.1.2 科技文档中数学表达式的提取方法

2.1.3 基于FDS的数学表达式解析

2.2 英文科技文档关键词的提取

2.3 科技文档索引构建

2.4 本章小结

第三章 科技文档的词嵌入模型

3.1 基于神经网络的词嵌入模型理论

3.1.1 词嵌入模型

3.1.2 FastText模型理论

3.2 英文科技文档的词嵌入模型

3.3 本章小结

第四章 基于数学表达式和文档关键词的检索模型

4.1 基于数学表达式的科技文档检索

4.2 基于词嵌入模型的科技文档检索结果排序

4.3 本章小结

第五章 实验结果与分析

5.1 实验环境及数据集

5.2 实验评价标准及测试数据

5.3 实验结果分析与对比

5.3.1 实验结果分析

5.3.2 对比实验分析

5.4 本章小结

第六章 总结与展望

6.1 工作总结

6.2 后续工作展望

参考文献

致谢

上一篇:农业管理体制改变论文提纲下一篇:信息技术教育定位分析论文提纲