区间数据库的构建及其在知识发现中的应用

来源 :广西师范大学 | 被引量 : 0次 | 上传用户：mengyi123

【摘要】

：

关联规则挖掘是数据挖掘中的一个重要研究课题。它是搜索强相关的项集合的一个过程。挖掘一个超市数据库, 可以找到不同商品之间的销售联系(它反映了顾客的消费行为),例如:面

【作者】

：

尹云飞

【机构】

：

广西师范大学

【出处】

：

广西师范大学

【发表日期】

：

2005年期

【关键词】

：

区间值关联规则知识发现区间聚类捆绑商品

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关联规则挖掘是数据挖掘中的一个重要研究课题。它是搜索强相关的项集合的一个过程。挖掘一个超市数据库, 可以找到不同商品之间的销售联系(它反映了顾客的消费行为),例如:面包与牛奶、咖啡与方糖、牙膏与牙刷等通常被同时销售。这些是常识性知识。有趣的是, 关联规则挖掘能找到,像“啤酒与尿不湿”被同时销售, 这种非常识性知识。这导致关联规则挖掘被深入研究和广泛的应用。例如, 它被进一步用于解决库存控制(stock control) 、商品促销(Sales promotion) 、消费者行为分析(Customer behavior analysis)等问题。随着超市和日用品工业的发展,捆绑销售(Binding sale)方式——捆绑商品(Binding commodities)销售已成为方便顾客并提升利润的一种重要手段。这正是关联规则挖掘的用武之地。本论文深入细致地研究了这个问题,并提出了挖掘区间值规则:A→[B, C]的思想和方法。捆绑商品借助区间值(Interval values)来表示有很多优点。首先区间值包含了比单个具体数据更多的信息。因为单个数据提供的只是单个数据本身,而区间值提供的是一个分布,即, 可以取区间内的任意一个数。其次区间值比平均数有更强的表达能力,也就是说区间值的信息熵(Interval entropy)要大于平均数的信息熵(Mean entropy)。再者,区间值数据库挖掘可以发现哪些商品适合于捆绑、哪些商品不适合于捆绑。这有重要的实际应用价值。论文在对区间值聚类算法研究的基础上, 提出将传统关系数据库的两个字段看成一个新字段,并用其中一个来表示新字段的“左端点域”(区间值左端点)用另一个来表示新字段的“右端点域”( 区间值右端点),由此形成了区间值数据库。论文深入研究了强关联规则( 亲属关联规则) 的挖掘算法,给出了强关联规则的区间函数公式; 在对这些区间函数值研究的基础上,构建了一种完备区间格系统,并利用完备区间格满足的一个性质:A∧C=B∧C且A∨C=B∨C ?A=B 来对商品进行捆绑。区间值关联规则挖掘的实质是对捆绑商品的挖掘,也就是研究哪些商品应该被捆绑。本论文的主要工作分为如下四个部分: (1) 提出传统数据挖掘中存在许多模式遗漏问题,并从物理学、数学、生物学等角度论述研究这些遗漏模式的重要意义。(2) 针对这些遗漏模式构建一种新型的数据库结构来存放和处理它们,这种新型的数据库就称为区间值数据库。(3) 提出了区间值关联规则的概念,并深入研究了区间值规则的真正内涵。(4) 区间值规则挖掘算法的研究。最后对本论文的主要工作做了总结,指出今后的改进方向。

其他文献

基于自适应混合Copula的可重复性度量及在高通量深度测序中的应用

随着计算机的计算性能与存储能力的发展,各类实验产生的数据量也与日俱增。在这种情况下,一个现实的问题也开始摆在我们的面前：如何应对和处理爆炸般增长的数据?通常来说,数据

学位

机器学习Copula可重复性生物信息学

基于LDAP的VLAN管理系统的研究与实现

随着局域网交换技术的迅速发展，VLAN技术越来越受到广大用户的关注，尤其是其灵活的组网技术，有效地减少了网络中因站点移动和改变带来的管理开销。但VLAN管理的复杂性，又在一定程

学位

局域网交换技术网络管理LDAP协议图形化操作平台

嵌入式加工中心系统中图形仿真器和编辑器的研究与实现

论文在研究国内外仿真技术的现状的基础上，首先给出了当前图形仿真的几种传统方法，较为具体地论述了各仿真方法的基本原理，并指出它们在工程实践中难以推广应用的原因；简单介

学位

嵌入式系统哈佛结构编辑器图形仿真器

移动IPv6的安全认证研究

随着互联网络的发展和无线手持设备的广泛应用，移动IPv6将在未来的3G和后3G网络中扮演非常重要的角色，越来越受到人们的关注。移动IPv6的安全成了移动IPv6研究中的焦点问题，移动

学位

无线手持设备安全认证方案移动IPv6

基于流形学习的颜色光谱特性研究

光与颜色是人们感受自然万物的基础,而被称为颜色的“指纹”的光谱反射曲线记录一个颜色最详细的信息,直接保存、处理颜色的光谱数据能够得到最为精确的结果,因而具有重要的

学位

流形学习光谱反射曲线蒙赛尔颜色空间

基于粗糙集理论的智能技术研究

　　本文根据智能控制与模式识别理论各自的特点和结合应用的意义，结合知识发现和知识优化的原理，利用粗糙集理论对知识能有效分类的特点，将粗糙集理论应用到知识发现中，提取出有

学位

粗糙集智能控制模式识别遗传算法模糊逻辑人工神经元网络

基于异常检测的入侵检测系统设计与实现

入侵检测系统是计算机网络安全的重要组成部分，它实现对入侵信息实时检测的功能。入侵检测系统一般采用基于网络的，采用误用检测技术的。采用误用检测技术的优点是精确；但它的主

学位

入侵检测系统异常检测异常流量异常数据包网络安全

图书发行管理信息系统的研究与设计

信息化浪潮正深刻、全面地影响着我国经济发展的各个领域，对出版行业也不例外。出版业作为意识形态领域一直受到国家的重点保护，信息化建设薄弱。加入WTO后，在经济全球化、信息

学位

出版发行信息化客户关系管理数据仓库OLAP

基于WEB SERVICE和P2P的分布式计算模型

　　随着信息的爆炸性增长，对计算机的存储能力提出了更高的要求。海量信息的存储带来了另一个问题，信息怎么进行有效的处理。这就对计算机的计算能力提出更高的要求。使用单一

学位

分布式计算网络服务P2P技术简单对象访问协议

基于XML树结构的索引技术研究

本文的主要研究内容有：对当前已经提出的各种索引技术进行了分析研究，首先给出了一个XML文档树数据模型的形式化定义。讨论了XML编码方法的研究和应用概况，并分析了当前比较流

学位

XML索引编码方法路径表达式查询路径索引树

区间数据库的构建及其在知识发现中的应用

其他学术论文