【摘 要】
:
传统的文本跨语言信息检索方法主要依赖于翻译技术,通过对源文本的翻译,在另一种语言环境中进行信息检索。近年来,基于语义的文本处理方法在很多自然语言处理领域中表现优秀
论文部分内容阅读
传统的文本跨语言信息检索方法主要依赖于翻译技术,通过对源文本的翻译,在另一种语言环境中进行信息检索。近年来,基于语义的文本处理方法在很多自然语言处理领域中表现优秀。对此,本文研究了一种基于语义的文本跨语言信息检索的技术,本技术基于文本概念图实现跨语言检索,其中包括双语概念图的构建、双语概念图的向量化表示与检索。概念图的构建部分是对文本全文进行形式化表示,可以在大大压缩文本大小的情况下对文本中的重要信息进行保留。先利用融合Attention机制的LSTM网络,构造生成式摘要模型,对长文本进行自动摘要。该模型对全文中重要的概念和关系进行初步过滤。对摘要中的概念和关系进行简要的句法词性标注后,通过关系建立概念间链接,再通过边的扩展和融合方法对次重要关系进行消除,引入间接关系并保留重要关系,生成概念间的拓扑图结构。双语概念图的向量化表示与检索部分是对概念图进行向量空间嵌入,生成概念图在向量空间中的图级别标签,进而进行相似检索。通过对图结构和内容的融合嵌入,相似的跨语言概念图在嵌入后也表现为相似。本文提出了概念图的跨语言信息检索框架CG-CLIR框架,该框架融合了概念图中的上下文节点关系信息与概念图的结构信息,以Skip-gram与CBOW为语义支撑,将基于Gumbel分布的随机游走与LSTM网络结合,用于对双语概念图的语义表征,再通过全连接层抽取高阶语义表示,最后输出概念图的相似度得分,从而完成检索需求。本文就生成概念图的效果和概念图的跨语言检索分别设置了不同的实验,用于验证本文技术的可行性与优势。实验表明,基于关系融合的概念图构造和CG-CLIR在文本应用中的有效性,本文方法跨语言信息检索效果优于传统CLIR和基于本体的检索效果。
其他文献
人体识别与人机交互在智能家居等商用场景有着迫切的需求和应用价值,设计合理且成本低的人机交互方式是近年来的研究重点。当前已有的研究提出的解决方案主要使用普通摄像头
目的:以青海地区藏族和汉族胃癌血浆、组织标本为研究对象,采用mi RNA芯片等相关检测方法,分析青海地区藏、汉族胃癌发生发展过程中的基因表达差异。方法:收集2017年10月-201
师生关系是老师与学生双方在教育教学过程中为了达到彼此共同的目标而搭建的一种道德关系、教学关系。师生关系的好坏对学校教育教学与管理质量存在着直接影响。然而,随着我
中国目前的蜂蜜生产总量排名世界第一,同时中国对蜂蜜的需求量也排在世界各国前列。在蜜蜂养殖行业中,蜜蜂是否健康直接影响到蜂蜜的产量,同时与蜂农的经济效益直接相关,所以
民间游戏是民间传统文化的重要载体,积淀着丰富的民间智慧,是幼儿重要的成长资源。依循民间游戏之内在逻辑,优化幼儿园民间游戏活动,使之成为幼儿园教育质量提升的重要路径,已逐渐成为当前学前教育理论与实践的重要课题。本研究以民间游戏“丢沙包”为切入点,采用行动研究的范式,辅之以观察法、访谈法和作品分析法展开研究。研究通过集体教学活动、区域活动以及在一日生活活动过渡环节的个别活动,不断地反思和调整活动方案,
随着中国工业制造的发展,以及国家产业政策的支持,作为加工制造行业所需的数控设备制造产业面临着巨大的机遇和挑战。面对激烈的竞争和机遇,企业是否做好准备及制定出合理的
从2013年开始,我国已成为世界第二大经济体,第一大货物出口国,也是物流总量第一大国。为了实现我国经济的进一步的又好又快的发展,现代物流必须先行。特别是对于竞争比较激烈的汽车配件行业,由于技术已经基本成熟,各个企业都没有国家和地方的保护。在这种背景下,谁能降低自身的成本,获得成本上的优势,谁就能在竞争激烈的市场上存活下来。而物流作为企业的第三方利润源泉,越来越受到企业决策者的重视。中信戴卡公司作为
[意义]糖尿病是由遗传和环境因素共同作用而导致的内分泌系统的代谢性疾病,2型糖尿病占发病人群的90%以上。随着经济发展、生活水平提高以及生活方式的改变,肥胖人群糖尿病患病率显著增加。胰岛素抵抗作为2型糖尿病发病的重要机制,表现为外周组织器官对胰岛素敏感性降低。而骨骼肌是胰岛素最重要的外周靶器官,是胰岛素介导摄取、利用葡萄糖的重要组织,血循环中80%的葡萄糖均由骨骼肌摄取并代谢,因而对骨骼肌胰岛素抵
汉语二语教学的最终目的是要培养学习者正确、得体、合理地进行语言交际。我们在教学实践中接触到了大量汉语学习者语言表达不得体的现象,究其原因主要在于汉语语体知识的欠
扑翼飞行器具有适应性强、隐蔽性好、飞行效率高等特点,在军事发展方面具有一定的战略意义,在民用方面具有巨大的实用价值与经济潜力。在扑翼飞行器的研究领域,机械设计与气