基于语义的Web文本聚类方法研究

被引量 : 0次 | 上传用户:guchenbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术尤其是互联网技术的发展与成熟,人们可获得的信息越来越多。面对如此海量的信息,一方面是人们对快捷、精准且全面获取信息的需求,而另一方面却是大量信息的冗余与无序。作为信息处理研究领域中最迫切的问题,有效地获得、分析、管理信息已越来越受到研究者们的关注。因此,Web文本聚类成为信息检索领域的重要研究方向之一。目前,基于空间向量模型的传统文本聚类方法由于其文本特征向量高维性、稀疏性等自身特点,这一方向上的研究与创新已经很难再有突破。现有基于语义的文本聚类方法的研究对象多限于传统文本,而缺少对Web中文文本的聚类分析,导致这些聚类方法在应用到Web中文文本时效率不高、效果不好。本文深入分析了中文文本聚类方法的研究现状,在此基础上,针对Web文本更新快,篇幅短,用词不规范等特点,采用基于知网的语义分析来研究Web文本的聚类方法。首先在理解知网的结构的基础上,改进了概念间相似度计算的方法,使之更符合语义的规范。接着通过分析Web文本聚类算法的相关难点,将基于知网的语义相似度计算引入传统空间向量模型,使其维度降低,数据稀疏性降低。改进后的空间向量模型更适用于Fuzzy C-Means文本聚类算法。该算法是对K-Means算法的改进,以语义的相似度阈值来控制聚类的迭代次数。基于此算法,设计并实现了微博话题发现系统。该系统可以自动从新浪微博抓取每日更新的微博,然后对微博内容进行聚类,同一聚类簇中的微博将被认为是在讨论同一话题,由此可以实现微博话题发现的功能。文章最后对算法的效果以及系统的功能进行实验分析与对比,结果表明:该算法相较于传统Web文本聚类算法有明显的效果提升,以此算法为基础所设计实现的系统也能较好的达到预期要求。
其他文献
尽管《野草》中出现的意象极为繁杂,可这些意象事实上却是几个高频率意象投射的产物。这几个高频率意象构成了一个意象网络,左右着《野草》的内在结构与言说方式。《野草》中的
《现代汉语词典》作为目前国内最权威的中型语文词典之一,其早期版本(试用本)和最新版本(第6版)对外来词的释义方式既有共性,又有变化。本文试用本和第6版中外来词主要释义方式分
Since 2017,the Quadrilateral Security Dialogue(Quad),which is comprised of the United States,Japan,India and Australia,has been fully“resurrected.”1 The Quad
目的:探讨喹硫平与奥氮平治疗精神分裂症的临床效果,为临床医学提供依据。方法:选取我院2012年6月-2014年6月收治的63例精神分裂症患者的临床资料,根据用药方案将其分为喹硫
随着电子科学技术的不断发展,人们对电源的要求日益增高,模拟电路解决方案越来越难以满足要求,数字电源便应运而生。数字电源主要是采用数字的方式来实现电源的智能控制、保护电
根据《诊断学》的教学内容、特点及其在医学教育中的重要地位,本文尝试在医学院校诊断学课程中进行微课结合翻转课堂的教学模式探索。探究微课结合翻转课堂在诊断学教学中的
精品课程网站建设是利用现代化的教育信息技术手段将课程的相关内容上网并免费开放,以实现优质教学资源共享,提高教学质量和人才培养质量。论文按照教育部精品课程网站的建设要
在滴灌条件下,采用连续3年定位增施有机肥小区试验,研究了不同有机无机肥配比对滴灌棉田土壤铵态氮、硝态氮、微生物量氮、全氮以及土壤矿化和硝化特性的影响,旨在明确滴灌棉
农村五保供养制度是我国自建国以来唯一稳定和持续的一项社会保障制度。1994年颁布《农村五保供养工作条例》至今,五保供养工作走上制度化轨道即将走过第二个十年。2006年新《
阐述了铣边要在国内外发展状况,分析了铣边机的主要特点,基本结构形式,铣削速度的选择和铣边机设计的主要注意事项,并对铣边机应用于焊管机组上对带钢实行不剪边工艺作了一些探讨