大规模交易数据库的聚类算法与离群点检测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wzhi8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析与离群点检测是数据挖掘中的关键问题,该文针对大规模交易数据库,研究聚类与离群点检测算法.主要研究工作包括:1)提出了一个高效的符号属性聚类算法:Squeezer算法.该算法能够在产生好的聚类结果的同时具有良好的伸缩性.该算法从数据集中顺序的读取元组,对每个元组计算它与已有的簇的相似度,以决定是否将其放入已有的簇中或用它来创建一个新的簇.该文提出的算法只需扫描数据库一次,特别适合在数据流环境下进行聚类.实验结果表明,该算法的聚类结果优于已有的算法且具有良好的可扩展性.2)研究了如何有效的存储和查询聚类结果.3)对离群点从一个新的角度进行分类:物理离群点和语义离群点,并首次提出语义离群点的概念.4)设计并实现了一个简单的数据挖掘系统,该系统集成了该文提出的所有算法以及基于聚类的分类算法,并能够对挖掘结果给出可视化的描述.
其他文献
该文介绍了中国邮政电子汇兑系统应用软件的测试案例,对该系统(系统结构、软件结构和安全管理)、测试方法和测试方案作了介绍和阐述.具体内容如下:第一章首先介绍了系统结构,包
该文研究了基于视觉的中国手语识别两个方面的内容:手指语识别和孤立手势词识别.由于视觉手语识别在特征表示和特征提取方面比较困难,该文设计了几种应用颜色重心距离作为主要
该文提出了基于面向对象的农业CIMS信息模型.该模型采用自顶向下的功能分解和自底向上的信息集成的建模方法.该文分析了该信息模型的建模准则及组成部分和信息模型的建模方法
学位
该文首先分析了各种传统图像分割算法,尤其是各种边缘提取算法,接着讨论了各种算法应用于舌像分割的优缺点,重点分析了Kass等人提出的称为Snake的主动轮廓线法,并将其应用于
该文中将详细阐述现阶段远程教育系统中存在的问题,并为解决问题走出了探索的一步.该文在前言部分简要的描述了教育系统架构及BDML(BeiDa Markup Language)语言设计的必要
该系统以《数据结构》为背景领域,研究了网络环境下ICAI中学生认知模型的构建与实现.包括对课程知识的认知分类、题库的认知改造以及适合学生推理模型的框架知识表示法和领域
学位
该文首先阐述了课题的背景及电子政务的发展状况,对电子政和斩发展情况做了比较全面的综述.该文着重研究了基于数据字典技术的电子政务系统的体系结构,通过对电子政务体系结
该文首先论述了相关技术背景,对XML技术做了一个简要综述,讨论了C/S结构以及三层应用系统的特点及优缺点.然后该文结合作者的开发经验,跟踪研究了最新流行技术以及存在的相关