网络语言文字应用研究论文提纲

2022-11-15 版权声明 我要投稿

论文题目:一种基于相似度的藏文词同现网络构建技术及特征分析

摘要:语言和文字是人类长期进化和文明不断发展的产物,这是长期以来发展形成的复杂网络系统。即使在使用通俗的语言方法学习探究语言时,也很难找出语言的内部网络之间的关系和整体特征。语言同现网络利用对复杂的网络技术探求人类语言的特征,从而能够进一步揭示语言文字的内部结构关系。各国学者在英、汉语言同现网络研究方面做了不少工作,已取得了丰硕的成果,并应用于各种语言文字处理任务中。与英、汉语言同现网络技术相比,藏文语言同现网络的构建和特征分析技术处于起步阶段,其研究能够揭示藏语言文字的内部结构,并在藏文信息处理中具有广泛的应用价值。文章通过分析相似性同现网络构建模块结构,提出了一种基于相似度的藏文词同现构建方法,该方法以词为网络节点,以相似词间连边构造词同现网络,并从我们构建的藏文词同现网络分析了其网络特征。主要内容包括:(1)建立了实验语料库藏语目前没有统一的藏文词同现网络构建的实验语料,因此我们从藏文网站和电子文档中获取了大小为18.07M,包含1258980词条数的藏文文本语料,并对其进行了预处理,得到了质量较高的用来构建藏文词同现网络实验语料。(2)藏文词向量表示及相似度计算随着深层深度学习的不断深入,词向量(Word embedding)可以系统完善的展现词语之间的语义关系。在构建基于相似性的藏语词同现网络时,需要将藏文词表示为词向量,并计算词语之间的相似性。文章在构建的藏文分词语料库的基础上,利用对小语料训练效果较好的CBOW模型训练词向量,利用余弦相似度计算词间的相似度。(3)藏文词同现网络构建方法及特征分析在分析英、汉等语言同现网络构建技术的基础上,利用我们提出的藏文词同现网路构建方法构建词同现网络,并实验验证了基于相似度的藏文词同现网络构建方法的有效性,同时分析了藏文词同现网络的统计特征。

关键词:自然语言处理;藏文;词向量;相似度;同现网络

学科专业:中国少数民族语言文学

摘要

Abstract

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 研究内容

1.4 论文组织结构

第二章 相关理论技术

2.1 词向量表示方法

2.1.1 传统词向量表示方法

2.1.2 神经网络词向量表示方法

2.2 词相似度计算

2.2.1 基于词汇知识库和语料库的方法

2.2.2 基于词向量的方法

2.3 语言同现网络构建方法

2.4 本章小结

第三章 基于相似度的藏文词同现网络构建

3.1 藏文词向量训练语料构建

3.2 基于相似度的藏文词同现网络构建

3.2.1 藏文词向量表示及相似度计算

3.2.2 藏文词同现网络构建语料选取

3.2.3 藏文词同现网络的构建方法

3.3 .本章小结

第四章 藏文词同现网络特征分析

4.1 语言同现网络特征分析技术

4.2 藏文词同现网络统计特征分析

4.2.1 藏文词同现网络的小世界效应

4.2.2 藏文词同现网络的无标度特性

4.3 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

上一篇:我国事实婚姻法律论文提纲下一篇:加工型企业的质量管理论文提纲