【摘 要】
:
我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。聚类分析在数据挖掘研究中占有重要的位置。所
论文部分内容阅读
我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。 本文首先对Web文档聚类中的数据表示方法、特征提取、权值计算进行了系统的研究,并开发了一整套从网上下载新闻、提取新闻正文、提取词干、计算权值、聚类、聚类结果可视化的软件,软件采用了XML和多线程技术。 介绍和分析了K-means聚类算法,并对Web文档聚类中的欧氏距离进行改进。改进后的欧氏距离与传统欧氏距离相比,提高了聚类的质量和速度。改进的欧氏距离与文本聚类中常用的余弦距离效果相当。 提出一种基于交集的聚类组合算法,借鉴了选举投票的思想。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果中对应簇的交集,对剩余的有争议对象进行投票,最后把投票之后仍未确定归属的对象分配给最近的聚类中心,或者不经过投票直接将有争议的对象分配给最近的聚类中心。 实现了随机点图、顺序点图、电子云图、条形图、饼图五种聚类结果可视化方法。这些方法各有优点,可配合起来使用。其中的顺序点图对象的位置固定,可在图形上显示每个对象的相关信息,适合动态显示聚类过程,在本文中得到广泛应用。 最后用多个Web数据集进行实验,验证了基于交集的聚类组合算法的有效性。
其他文献
土地的合理利用是区域经济、社会和生态等因素的综合体现,土地利用优劣程度以及未来发展趋势直接影响到经济的发展、生态环境变化和人们的日常生活。随着科学技术的飞速发展,
网格计算是一种正在迅速发展的计算基础设施,它将分布的计算资源组织起来协同解决复杂的科学计算与工程应用问题。网格中的节点具有高度的自治性和地理上的分散性,网格中的资
随着现有互联网的飞速发展,网格作为一种信息社会的网络基础设施,利用互联网把分散在不同地理位置上的多个资源全面连通和统一分配、管理及协调起来。其优势在于不但数据处理能
70年代初期,在Jeliski-Moranda提出第一个软件可靠性模型后,有关软件可靠性的研究就一直是软件工程领域的热点问题。经过近几十年的研究和发展,软件可靠性和软件可靠性工程的
电信企业在发展,电信运营支撑系统也在发展,目前国内的运营商已经基本完成了以数据仓库技术为基础的经营分析系统的建设,实现了企业级的数据整合和集中。于是,市场向电信运营商提
自动问答系统能用准确简洁的答案回答用户使用自然语言提出的问题,作为一种新的信息获取方式,正受到越来越多的关注。传统的自动问答系统趋向使用结构化或半结构化的封闭式知识
近年来,Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向等很多问题,为了克服这个问题,有必要对Web信息过滤技术进行研究。中文文本信息过滤是中文
随着计算机网络的普及,计算机病毒攻击等入侵行为日益突出,对网络的安全构成极大威胁。深刻理解计算机病毒等入侵行为在互联网中的传播机理,要增强互联网抵御病毒入侵的能力,
在设计数字化社区一体化平台中,海量的数据被存储在数据仓库中。要充分利用这些数据,从这些数据中挖掘出潜在的规律,更好的完善数字化社区一体化平台的功能,我们设计了一个基
在过去的几年里,因特网技术在全球范围内飞速发展。但由于互联网发展的历史原因,TCP/IP协议及HTTP、FTP等基于TCP/IP协议的各种应用层协议,在协议设计之初均未考虑安全传输问题,这