基于语义的文本聚类算法研究

被引量 : 0次 | 上传用户:zkk81950868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网快速发展的今天,面对海量的半结构或者非结构化的信息,如何进行快速高效的挖掘对人们有用的信息,成为研究人员迫切希望解决的问题。文本聚类是一种在没有分类指导情况下对文本文档自动分类标识的方法,但是,由于对语言理解和表示的困难,造成目前大多数聚类算法的性能和准确性都不高。本文针对以上问题,提出了一种基于图结构的文本表示模型-带权主题概念图(Weighted Subject Conceptual Graph,WSCG),有效的利用文档中词语之间的关联,以及文档中不同的结构对文档主题的支持度,将概念分为中心概念和外围概念,给出了基于WCSG结构的文档相似度计算方法。然后,本文在对现有聚类算法的研究的基础上,设计了基于WCSG概念图的文本聚类算法,使得在聚类过程中文档之间的关系计算更为准确。最后,在本文所作研究的基础上,设计并实现了文本聚类系统SemCluster。实验表明,基于WCSG的文本表示方法在文档的相似度计算和文本聚类中,与现有的方法相比具有较高的准确性,同时对文本聚类系统进行了测试,实验证明系统达到了设计要求。
其他文献
2012年《刑事诉讼法》规定了一种具有中国特色的非法证据排除体系,这对于促进司法机关依法取证、尊重与保障人权具有重要意义。但也应该注意,新刑事诉讼法对于排除非法证据规
本研究建基于学界先进相关成果,由整体清代大视野,结合定性分析与定量分析,以统治阶级上层为中心,首次比较系统地摹画了甲申易枢至清亡近三十年间满汉矛盾之演进轨迹,首次比较系统
针对采用常规活性兰纳素染料对羊毛纤维进行染色中存在的问题,经过反复实验对比,总结出了两种行之有效的改进方法,即加氯化稀土促进兰纳素染料上染和加助剂米勒兰LTD实现低温
目的评价国产与进口腺苷对阵发性室上性心动过速(PSVT)的疗效。方法PSVT病人145例随机分为国产腺苷组(70例)和进口腺苷组(75例),分别依次给予3,6和9 mg腺苷快速静推,直至PSVT
企业文化贸易是根据贸易型态演化来规划,其目的是实现竞争优势而获得利润,达到企业价值增值的目标
众所周知,兴趣是儿童学习最好的导师,特别是在儿童钢琴入门的阶段。从开始阶段培养儿童的学习兴趣,是推动学习进行的重要因素,可以说"兴趣是成功的秘诀"。而这个"秘诀",并不
深圳市政府《关于印发深圳市现代产业体系总体规划(2009-2015年)的通知》中明确突出对信息化技术的重视,深圳市智能交通的发展更是关系智慧城市的建设重点。根据《深圳市智能
<正> 所谓更生保护是指对于出狱犯人或曾受某种刑事司法处分的犯罪人以及其他有不良行为的人,在社会上给予保护与辅导,使其彻底改变不良的性格、习性和心理。帮助其克服生活
我国城市商业银行对促进地方经济的快速发展起到了重要的金融支持作用,地方政府和国务院一直在努力推进城市商业银行发展的数量和质量,从数量上来看,截止2009年年初,我国城市
回顾了20余年来山西棉花耐旱新品种选育历程,总结了取得的成就:解决了前人提出的数十种棉花耐旱形态、生理、生化指标不能被育种家直接采用的难题,提出并完善了我国棉花耐旱