基于Ontology的Web文本聚类研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:fwj108580853
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿,其中87.8%的数据是以文本的形式存在[2]。因此对文本信息的挖掘是从互联网上获取知识的重要途径。聚类技术在信息检索领域有着广泛的应用,有很多非常成熟的算法在各个方面承担着重要角色。传统的搜索引擎以列表的形式返回搜索结果,对于一个模糊的、语义不明确的、或者属于多个主题的查询词,不同语义、不同主题的搜索内容可能分散在长长的列表中,用户不得不花费大量的精力和时间从中查找符合自己查询意图的目标结果。这种情况下,一方面降低了搜索结果的质量,另一方面也使用户的满意度大打折扣。研究人员为解决此类问题提供了许多方法,其中对搜索引擎返回结果进行聚类成为解决这一问题的有效途径,并在实践中被不断的完善。Vivisimo [3],Infonetware RealTerm Search[4]都是非常成功的商业聚类搜索引擎。搜索结果聚类系统的输入通常是由传统搜索引擎响应用户查询所返回的一个搜索结果集,其中每一个搜索结果由题目、文本摘要和原始页面链接组成。输出是对结果集进行聚类后得到的一组有标签标识的聚簇。搜索结果聚类涉及到文本挖掘领域的多个方面,搜索结果文本的表示模型、短语相似度计算方法、搜索结果聚类算法的选择等。如何挖掘搜索结果中的关联信息,如何在语义层面上提取聚簇标签,这些都是搜索结果聚类技术的研究重点。本文提出了一种针对中文网页搜索结果进行聚类的改进方法。与传统的聚类技术着重于文本相似度计算和聚簇结构不同,搜索结果聚类将聚类标签的提取放在技术研究中最重要的位置。聚类标签的语义完整性、可读性、对聚簇的概括性是评价搜索结果聚类标签质量的重要指标。一个好的聚簇标签不仅可以有效的区分聚簇间的相互关系和彼此间的层次性,直观的表达各聚簇的主题,而且能够引导用户快速定位需要的信息和资源。本文通过本体的辅助改善聚类标签质量,对搜索结果的聚簇标签进行概念层次的提取,有效提高了聚类标签的可读性和概括性。本文的主要贡献如下:(1)提出一种用来识别含有较完整语义信息短语的方法,这种方法通过比较后缀树文本模型中基类属性和包含这些基类的文档重合数量来识别完整语义信息短语。(2)为了更好的反映短语间的关联度,本文采用了基于句子粒度的短语贡献度计算方法。(3)提出基类贡献度的概念,通过基类包含的词语个数、词语的词性等属性为基类分配合适的权重,从而判断一个基类是否有资格进入形成聚簇标签的候选基类集合。(4)通过本体层次化概念关系的应用,将可能成为聚簇标签的候选基类和本体中的概念进行匹配,并通过本体中概念之间的上下位等关系,为聚簇提取概括性更强、语义更丰富的概念作为标签,实现概念层次的标签提取,将聚簇的标签从一般的文本表示提升至语义表达的高度。
其他文献
P2P技术让整个网络世界充满了无私的精神和自由的气息,它以洪水般的速度挤进了互联网的各种应用之中,得到了迅速的发展并日趋成熟。但是由于P2P网络的匿名性、开放性等特点已
自适应滤波算法目前已经成为信号处理学科的一个重要领域。其中,最小均方算法LMS是最著名的线性实时算法之一。由Widrow和Hoff在1960年提出,LMS算法由于其在各种信号处理中的
遗传算法是一种随机搜索方法,是应用最广泛的优化方法之一。但遗传算法存在“未成熟”收敛以及收敛精度不高等方面的不足,针对这些问题把不动点理论引入遗传算法,借助不动点
在线社交网络(Online Social Network,简称为OSN)近年来的发展趋势令人瞩目,成为人们网络生活中的重要组成部分。当前,主流的在线社交网络都基于中央服务器模式运作,这种服务
三维模型变形在计算机动画中占有很重要的地位,随着计算机软硬件技术的发展,人们对三维动画技术提出了更高的标准,为了使三维动画能够更好地满足于社会需求,需要提高三维模型
随着计算机软件规模的扩大及复杂性的提高,软件需求成为整个软件工程中的关键一环,其重要性越来越受到人们的重视。研究发现,绝大部分的软件缺陷都是在需求阶段发生的。伴随
1946年Dennis Gabor提出了一种同时用时间和频率表示一个时间函数的方法,这种方法被后人称为Gabor展开[2-3]。尽管Gabor变换在非平稳信号分析处理中有广泛的应用,如生物医学
现代制造企业的产品设计是基于知识的设计,统计表明约有90%的产品设计可以重用以前的设计知识。然而,由于对产品设计知识缺乏统一的组织和表示,无法表达知识的语义信息,导致设
随着计算机技术的发展和三维模型的广泛使用,怎样从大量的三维模型库中快捷高效地检索出人们想得到的三维模型这已经是一个需要尽快解决的重要科研课题。基于关键词的三维模
生物学与信息科学是目前世界发展最迅速,影响最广泛的两门学科,这两门学科交叉而形成的新兴研究领域属分子计算。根据目前的研究情况,分子计算可以归纳为两大主要的研究方向: