海量数据库中的小模式发现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:hmgujie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文归纳了海量数据库中小模式发现的研究现状及热点问题,并在此基础上分别对例外规则和离群点展开了研究和探索,提出了自己的定义,同时给出了适合于大规模复杂数据集的挖掘算法.具体地说,该文的贡献如下:1.提出了一种快速有效的例外规划挖掘算法.该算法预先去了作了类关联规则中大量的虚假规则,减少了计算量.它不需要进行偏移量计算,避免了偏移阈值取值不当的问题,能够找到所有的例外规则.2.提出了一种基于超图的高维数据的离群点检测算法.该算法根据频繁项集来确定相对稠密的子空间,部分克服了维度灾难和组合爆炸问题,并很好地体现了离群点的局部性.同时,该算法避免了传统的基于距离的相似度计算,因此能够处理种属属性的数据和属性缺失的数据.3.提出了一种基于估计的子空间局部离群点检测算法.该算法针对基于距离的离群点检测算法效率低下的问题,提出了根据高维离群系数估计低维离群系数的技术,预先过滤掉大量不可能成为离群点的对象,极大地提高了算法的效率.
其他文献
由于工程试验活动的复杂多变性,对工程试验数据的管理和分析处理的有效支持一直是数据处理领域的研究热点之一。数据仓库作为一种决策支持的技术在信息领域已被广泛运用。本文
通过对目前研究现状的分析表明椭圆曲线密码系统的安全性是很高的.最有效的攻击方法也必须面对指数阶的运算量,这在实际中是不奏效的.椭圆曲线密码系统已经成为众多国际标准
本文首先阐述了几十年来软件开发一直出现成本高、质量低、进度缓慢、不能按时交付用户等问题的主要原因:(1)难于真正理解系统需求;(2)软件开发没有遵循一个确定的、供开发人员
中文机构名称的自动识别对提高汉语自动分词的精确率有着重要的意义,也是自然语言理解、机器翻译、信息抽取和信息检索的基础。 由于机构名称和姓名同属于专名,而且两者在组
随着我国公路交通事业的发展,提高公路交通配套设施的自动化程度及其效率日益成为关注的焦点。基于视频、静态图像的车辆自动化识别(AVI)系统以其所具有的在系统安装、图像回
随着分布式应用规模的日益庞大,分布式系统中不可避免地包括各种异构实体。CORBA提供了分布式环境中对象之间的透明性互操作,使应用程序可独立于软硬件平台、网络协议、编程语
该文在深入研究RSVP工作机制和QoS路由算法的基础上,提出了一种支持RSVP的动态分布式QoS路由模型.与传统的综合服务模型相比,它在以下几方面进行了改进:(1)采用基于带宽和延
学位
作为超级终端内的关键模块,LTE脱网网关主要负责脱网模式下超级终端的弹性组网功能以及为最终用户设备提供不间断的接入服务,并实现LTE小型化基站和卫星通信模块之间的数据交换
随着因特网的高速发展、家用计算机的普及和人们对高速快捷的商业行为的要求,在世界的范围内电子商务得到了较大的发展,一些传统的商业行为正在逐渐被电子商务所取代。在电子商