基于后缀树的半监督自适应多密度文本聚类算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:ivb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之间的关联性.针对以上问题,提出一种基于后缀树文档模型的半监督自适应多密度文本聚类算法.该算法基于后缀树文档模型表征文档间的相似度,使用K最近邻思想传播扩展簇标签,并在传播扩展过程中不断更新扩展阈值,以适应多密度不平衡的文本数据集.经实验验证,算法具有较高质量的聚类结果且能够适应多密度数据集.
其他文献
随着信息通信技术的兴起,融合通信服务器中间件的重要性越来越凸显.通过“中间件”技术,在融合通信服务器基础上打造一个对外的中间件平台即融合通信服务器中间件,不仅屏蔽了
人生如戏--这是我在京戏中品味出来的,京戏中这些演员的每一个眼神,都讲述了不同的故事,每一个故事都是那样耐人寻味……我想这就是母亲把热爱京戏的一颗恒心传给我的缘故吧。
期刊
米非司酮配伍米索前列醇外加卡孕栓终止早孕在国内早已广泛的应用于临床取得了满意的效果,本院2011年1月至2011年12月在计划生育门诊应用,随机抽取早孕100例与高 Mifepristo
以病人为中心,以医疗质量为根本,提供优质服务是医院的一个永恒的主题。保持和巩固医院的优势学科,扶持和培养更多的国内领先学科和技术,形成拳头产品,才能使我们医院永远立
火灾,从消防的角度上讲是在时间和空间上失去控制的燃烧所造成的灾害,是一种与人类生产、生活相伴的灾害,是人类社会和经济发展过程中的客观现象。它既有自然灾害的一面,更有
链路预测是复杂网络的一个重要研究方向,基于节点对的相似性指标进行预测是最为常用的一种方法.已有的链路预测方法通常是基于节点对的共同邻居节点的个数或度值来定义它们之
目的调查分析2005—2013年莆田市登革热的流行病学特征、流行规律,为制定预防控制措施提供依据。方法收集国家疾病监测信息报告管理系统2005—2013年登革热基本信息,以及登革
以原产于广西阳朔的漓江报春苣苔(Primulina lijiangensis)和心叶报春苣苔(P.cordata)2种报春苣苔属植物为试材,从开花生物学、花粉活力和柱头可授性、花粉/胚珠(P/O)比率、
目前分层的基于身份的签名方案已在不同的密码应用中得到广泛地研究,但由于量子计算机的出现,现有部分方案仍存在安全问题.根据Cash方案中的思想,文中利用随机整格的难题和格
近日,乌鲁木齐营销中心捷报频传,继6月签定新疆伊河水利涉密网项目后,通过乌鲁木齐营销中心同仁们的不懈努力,8月3日再次成功中标青海省水利厅涉密系统项目,中标金额为318万元人民