基于维基百科的汉语词语及短文本相关度计算方法研究

被引量 : 0次 | 上传用户:besunqz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的不断发展,文本作为信息的重要载体也随之大量涌现,因而文本的自动处理就成为了信息处理的一个重要领域。词语和文本的相关度计算作为文本信息处理的重要研究方向,越来越多的被国内外研究者所关注,同时它也是信息检索、文本分类、词义消歧、机器翻译等多种自然语言处理技术的重要基础。为了促进自然语言处理技术的发展,研究词语和文本相关度计算具有重要的理论意义和现实意义。本文提出了基于中文维基百科分类体系和文档链接的词语相关度计算方法。传统的大部分汉语词语相关度计算方法是基于知网(HowNet)的。本文将中文维基百科作为语义资源,利用其分类层次、概念文档之间的链接来计算汉语词语之间的相关度。在借鉴向量空间模型和谷歌相似度(Google Similarity Distance)计算方法基础上,通过构建分类图和相关语义向量来实现汉语词语相关度的计算。词语的语义相关度可以利用到文本之间的相关度计算中,尤其对于短文本,短文本作为文本的一种,它具有独特的语言特征,单条短文本长度一般都非常短,因此样本特征非常稀疏,很难准确抽取有效的语言特征,难以充分挖掘与利用特征之间的关联性。本文综合考虑短文本的结构特点,并且根据词语语义相关度值,提出了最大序列算法和动态权值算法。本文抽取了中文维基百科的文档链接、分类体系、重定向链接等语义资源,实验测试分别使用测试集WordSimilarity-353和新闻标题等短文本语料对本文提出的基于中文维基百科的词语相关度算法和短文本相关度算法进行了实验,并对测试结果进行了分析。实验结果表明,本文的算法具有一定的可行性和有效性。最后对论文所做的工作进行了总结与评述,并提炼了词语和短文本相关度计算中值得继续研究的若干问题,为以后的研究指明了方向。
其他文献
目前道路交通事故损害赔偿民事调解制度是解决道路交通事故损害赔偿纠纷的有效途径。道路交通事故损害赔偿民事调解合同是指道路交通事故当事人在公安机关交通管理部门主持下
新型城镇化成为我国未来经济增长的动力,建立科学合理的城镇化发展质量的评价指标体系,对于引导我国各地提高城镇化发展质量具有重要意义。基于城镇化质量的内涵,参照国家城
采用溶液聚合方法,使乙烯基吡咯烷酮(VP)和甲基丙烯酰胺丙基二甲基胺(DMAPMA)发生共聚,通过红外光谱法对产物进行结构表征。在不同温度湿度条件下检测聚乙烯吡咯烷酮(PVP)和
采用液体培养法,对两种微生物酵素抑菌功效进行评价。结果表明:膏状酵素对大肠杆菌、铜绿假单胞菌、金黄色葡萄球菌以及三种痤疮病原菌(014、015、016)的抑制率分别为19.21%
1978年以来,我国公务员规模经历了1980年代快速增长,1990年代有效控制,2003年以来再度增长的"之"字形发展过程。本文使用1978—2006年数据建立模型,发现财政支出规模、行政机
数字化变电站是智能电网的关键节点,电子式互感器则是数字化变电站的基础性设备。目前,现有电子式互感器的数据同步方法无法满足实际需求,针对电子式互感器暂态行波信号传变
随着近年来电力系统容量的不断增加和电网电压运行等级的不断提高,传统的电磁式电流互感器的磁饱和与绝缘难的问题也日益突出,无法适应现代电力系统自动化、数字化的发展要求
配电线路大部分裸露在空气中,容易遭受雷击产生雷电过电压,造成供电中断、供电设备损坏等故障,影响了广大用户的生产与生活。研究表明,配电网10kV架空线路由雷电引起的绝缘子
二十一世纪,随着信息技术的迅猛发展,人类社会已经跨入信息社会和知识经济时代。在国家产业政策的引导下,在中国加入WTO后激烈的市场竞争环境下,我国企业的信息化热潮正与日俱增,
随着社会的发展和生活水平的提高,人们对食品安全问题,尤其是动物源性食品安全越来越关注。不断发生的食品安全事件将食品安全问题上升到较高的高度,得到国家的高度重视。肉