面向企业竞争情报系统的近邻传播文本聚类技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ChengpCN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,企业的数据资源呈爆炸式的增长,传统的企业竞争情报系统在数据分析处理中的不足日渐突出。数据挖掘技术的兴起为竞争情报系统的发展提供了新的动力。文本聚类是数据挖掘的一个重要研究课题,在各个领域得到了广泛的应用。其作为一种无监督的机器学习方法,可以对文本信息进行有效的组织、摘要和导航,所以研究文本聚类在企业竞争情报系统中的应用具有重大意义。结合在企业竞争情报系统中的应用,本文对AP算法(近邻传播聚类算法)存在的问题做了如下改进:由于AP算法对于结构较为复杂的数据集应用效果不佳,且无法利用少量的先验知识优化聚类准确度,针对这一问题,本文提出了一种基于AP算法的半监督聚类算法(S-AP),多次实验结果表明,该算法具有更高的准确性和更快的收敛速度。另外,针对在聚类过程中各维属性特征的贡献不同,本文提出了基于特征加权的改进AP算法(W-AP),实验表明该方法优于传统的AP聚类,能够较明显的提高聚类准确率,同时可以分析各个特征的不同贡献,有效的优化特征空间。最后,在前面研究的基础上,根据所做的项目课题,将改进的AP算法应用于企业竞争情报系统中,来对采集到的文本情报信息进行有效的聚类,并取得了较好的结果。
其他文献
低密度校验码(Low-Density Parity-Check codes)是目前最接近香农限的一类纠错码。由于其良好的距离特性、低译码复杂度,已成为当今信道编码领域研究的热点之一。随着研究的不
本文主要研究了数据包分类算法,以及数据包分类在入侵检测工具Snort和基于状态包分类的数据流检测中的应用。网络技术的飞速发展,给人们的社会生活带来很大便利。然而,网络用户
语音作为人们交流和表达情感的一种重要媒介,在日常生活中却总是受到噪声的干扰,因此我们需要对混入背景噪声的干净语音进行语音增强。语音增强算法的最终目标就是对背景噪声
软件缺陷是软件的固有属性,其主要危害是影响软件的可靠性、增加开发成本以及延长软件开发周期。软件测试可以及时发现软件错误,提高软件系统可靠性。而准确地预测软件缺陷,对改
RESTful Web服务作为一种轻量级的Web服务实现,近年来在云计算环境中得到了广泛的应用。然而基于HTTP协议的RESTful Web服务无法支持异步交互,在多参与者业务流程中执行效率不
随着全球信息化和智能化的推进,人工智能已经渗透到各行各业,模糊推理成为其中非常活跃的研究方向之一。围绕经典模糊规则和模糊推理算法的研究已有许多成果,但经典模糊规则不能
Flash动画作为一种重要的动画形式通过网络和其它各种媒体已经越来越多的深入到人们的生活当中。但是通过分析国内外大量Flash动画作品,发现Flash动画作品的设计和制作技术良
随着社会的进步,互联网逐渐成为人们表达舆论的又一个重要平台。网络具有传播迅速、用户匿名等诸多特性,由于这些特点,一方面,网络对社会舆论起到了很好的监督作用,但另一方
P3P隐私偏好平台主要被用于在用户访问网站时保护用户的隐私,它提供了基于XML的策略描述语言,使得网站可以以一种机器可读的方式描述它们的数据收集的范围以及使用的方式。但是
随着计算机网络的发展,应用的不断深入,云计算被提出,并成为当今计算机领域最热的研究领域之一。Hadoop是一种云计算框架,适用于大规模数据集计算。在Hadoop中,用户提交的作业被分