论文部分内容阅读
随着信息技术的发展,企业的数据资源呈爆炸式的增长,传统的企业竞争情报系统在数据分析处理中的不足日渐突出。数据挖掘技术的兴起为竞争情报系统的发展提供了新的动力。文本聚类是数据挖掘的一个重要研究课题,在各个领域得到了广泛的应用。其作为一种无监督的机器学习方法,可以对文本信息进行有效的组织、摘要和导航,所以研究文本聚类在企业竞争情报系统中的应用具有重大意义。结合在企业竞争情报系统中的应用,本文对AP算法(近邻传播聚类算法)存在的问题做了如下改进:由于AP算法对于结构较为复杂的数据集应用效果不佳,且无法利用少量的先验知识优化聚类准确度,针对这一问题,本文提出了一种基于AP算法的半监督聚类算法(S-AP),多次实验结果表明,该算法具有更高的准确性和更快的收敛速度。另外,针对在聚类过程中各维属性特征的贡献不同,本文提出了基于特征加权的改进AP算法(W-AP),实验表明该方法优于传统的AP聚类,能够较明显的提高聚类准确率,同时可以分析各个特征的不同贡献,有效的优化特征空间。最后,在前面研究的基础上,根据所做的项目课题,将改进的AP算法应用于企业竞争情报系统中,来对采集到的文本情报信息进行有效的聚类,并取得了较好的结果。