汉老双语文本及句子相似度计算研究

来源 :昆明理工大学 | 被引量 : 4次 | 上传用户:yangzhibo0508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算和句子相似度计算在自然语言处理领域有着非常重要的地位,在信息检索、文本挖掘、问答系统等方面应用广泛。在老挝语方面,文本相似度计算和句子相似度计算的研究工作还处在刚刚起步的阶段,十分薄弱。随着我国与老挝在各个方面的交往日益密切与频繁,老挝语的信息化处理也在两国的经济文化交流中显得尤为重要和迫切,因此为了更好的顺应两国在政治、经济、文化等各个方面的发展,对汉老双语文本及句子相似度计算的研究是必要且不可或缺的。本文结合汉语并针对老挝语特有的语法、句法特征以及目前老挝语可比语料稀缺的问题,主要对汉老双语文本及句子相似度计算的方法进行研究。主要研究成果如下:(1)构建实验级别老挝语语义词典。由于互联网上没有提供老挝语版的Word Net下载,对此,本实验室联合老挝留学生自行设计了一个简易的老挝语语义词典,对应Princeton大学开发的Word Net,把老挝语单词作为最基本的单位,考虑到一个句子的主要成分,因此被分为名词和代词(通常做主语或宾语)还有动词和形容词(通常做谓语),并被各自组织成一个同义词网络。通过两年的时间,实验级别的老挝语语义词典已经小有规模。(2)基于语义词典的汉老双语文本相似度计算。本文提出的文本相似度只是计算粗粒度的双语文本的相似度,并达不到词,句子和段落对齐,在此之上利用了中文概念词典和本实验室自行构建的实验级别老挝语语义词典与Princeton开发的Word Net对齐的特点,通过上述实验得到的实验级别的老挝语义词典,首先对汉老文本进行预处理,利用汉语和老挝语分词工具,将汉语和老挝语文本分词并过滤为名词序列,然后利用词与词之间的语义距离对名词序列进行消歧,接着利用语义词典将消歧后的双语名词序列映射到数值空间,转换为与语义无关的整数,最后利用Dice系数计算汉老双语文本的相似度。实验结果表明,本方法在一定程度上提高了双语文本相似度计算的准确率。(3)基于关系向量模型的汉老双语句子相似度计算。从上一个研究点中,得到比较粗粒度相似的双语文本,从这些文本中抽取句子,计算双语句子相似度。本文提出了一种在空间向量模型的基础上利用北大的中文概念词典和本实验室设计的实验级别的老挝语语义词典同时考虑双语的句子结构(关键词的位置)和语义信息的关系向量模型。首先将一个汉语句子和老挝语句子利用分词工具先进行分词,然后选取关键词。所以在计算句子相似度时,不同于文本相似度计算只考虑名词,为了最大限度的保证语义完整,这里需要将一个句子中的所有名词、代词、动词和形容词都选取出来作为关键词,这样做既最大限度的保留了句子的整体信息,又降低了算法的运行时间。然后将这些关键词映射到数值空间,转换为与语义无关的整数,最后进行汉老双语的句子相似度计算。本文提出的关系向量模型在一定程度上提高了汉老双语句子相似度计算的准确率。
其他文献
近年来,随着可见光通信(VisibleLightCommunication,VLC)技术不断发展和成熟,基于发光二极管(LightEmittingDiode,LED)的VLC应用已涉及室内/外诸多场景。对于室内VLC场景,通
本文提出了污点逆向传播的方法来解决用户隐私泄漏的问题。面向隐私保护的污点逆向传播实际上是按照污点正向传播的思想来追踪数据。而通过逆向化这个过程,达到了污点标记简
随着机器人产业的不断发展和人们对高品质生活的不懈追求,人们在日常生活的方方面面将会越来越频繁的看到服务机器人的身影,而这也给未来服务机器人的实用化和智能化提出了挑战。本文主要研究了基于二维激光雷达的SLAM(Simultaneous Localization and Mapping)和机器人自主导航等技术,旨在设计一款具备地图构建、自主导航等基本功能的室内服务机器人,可应用在化学工厂、隔离宾馆、办
在光学系统中,非球面光学元件与传统球面光学元件相比拥有很多可以进行优化的自由度(如二次曲面常数和高阶项系数),它具有简化系统结构,提高成像质量,提高像差校正能力的优点,
近年来,随着与数据相关的信息技术的高速发展,全球数据量呈现爆炸式增长,大数据给我们带来了很多方便,但也存在大量的重复数据存储,因此有效的处理重复数据达到节省存储空间
过去十年来,钙钛矿太阳能电池的研究取得了飞速发展,光电转换效率从3.9%提升到了24.2%,是极具商业化潜力的下一代太阳能电池技术。在钙钛矿太阳能电池中,目前被广泛应用的高
二硫化钼因为具有和石墨烯类似的结构和相近的性质而成为当前研究的热点,被广泛应用于析氢催化、能量存储、光电子器件等许多领域。由于纳米尺寸效应,粒径极小的二硫化钼量子
从上世纪80年代起,科学家们对计算机模拟人眼视觉注意机制的初步探索,到近年来,显著目标检测模型在主流商业产品中的成功应用,视觉显著性检测(Visual Saliency)一直以来都是
在云计算和大数据时代,虚拟化在越来越多的应用领域受到了热烈的欢迎与期待,虚拟化技术在近几年也获得了长足的进步和发展。虚拟化应用从大方向上可以分为两类:服务器虚拟化
正交频分复用(OFDM)技术因其具备高效的频谱资源利用率以及强大的抗干扰性能,而成为无线通信过程中的一项关键技术。无线通信过程中的信道是复杂多变的,这会影响通信中的数据传输过程,此时需要用到信道估计技术来对信号进行恢复,来保持通信的可靠性。信道估计过程是OFDM系统的重要组成部分之一,它通过对信号在传输中经历的信道状态信息进行估计来获取信道响应,再根据信道响应恢复出接近原始状态的信号,从而保证通信