【摘 要】
:
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法。但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚
【机 构】
:
江西师范大学计算机信息工程学院; 江西财经大学信息管理学院; 江西财经大学现代教育技术中心;
【基金项目】
:
国家自然科学基金资助项目(60663007);江西省科技攻关项目(20062184);江西省教育厅科技项目(20072129);江西省自然科学基金资助项目(2007GZS2168)。
论文部分内容阅读
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法。但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类。为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法。该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类。实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类效果。同时,通过两阶段聚类方式不仅能有效地进行特征选择,而且聚类效果得到很大提高。本文最后还利用特征之间的语义关联关系在进行特征选择之后进行特征扩展,使聚类效果得到了进一步的提高。
其他文献
《学前教育科学研究方法》是由何慧华等编著、中国人民大学出版社出版的学前教育教材类书籍。该书共分为七个章节,第一章介绍教育研究的本质、范式和路径、过程概览等,并引出
目的:研究表明穿心莲内酯具有一定的抗肿瘤效果,为了获得具有更高抗肿瘤活性的穿心莲内酯衍生物,本文以穿心莲内酯为原料,设计一系列结构新颖的含噻唑结构的穿心莲内酯衍生物
随着智能制造技术的发展,物联网平台在各行各业的应用也在不断发展,针对目前汽车生产线信息化系统种类多、系统间相对独立、系统功能固化、业务需求更新频繁、系统开发对IT专
分子蒸馏器是降低异氰酸酯固化剂中游离单体含量的先进设备之一。本研究采用分子蒸馏器对HDI缩二脲粗产品进行蒸馏来降低游离HDI含量。结果表明,在加料速度为5 m L/s、转速30
为解决大功率永磁同步风力发电机发热问题,本文采用计算流体力学的方法对大功率永磁同步风力发电机定子冷却系统进行了优化分析。结果表明:水冷系统的冷却管外壁与铁心之间存
<正>目的 :本文旨在观察低氧及低氧复合运动对骨骼肌骨骼肌内质网应激及线粒体生物合成的影响,并探讨相关分子机制。方法 :雄性Sprague-Dawley (SD)大鼠随机分为常氧对照组(N
<正>血管新生存在于肿瘤,糖尿病,类风湿性关节炎等病理过程中,这一过程涉及到血管内皮细胞的增殖、迁移、分化和管状结构形成。血管内皮生长因子(VEGF)及其受体在介导血管内
目的:观察口腔膜治疗实验性口腔溃疡大鼠的作用并探讨其作用机理。方法:采用90%苯酚造成大鼠双侧口颊2mm×2mm的溃疡面,同时采用热板法和扭体法,观察口腔膜对实验性大鼠口腔