关联规则挖掘算法研究

被引量 : 0次 | 上传用户:jiaoxuepan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识就是力量。当前快速发展的新的IT技术、电子商务及互联网的迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含了很多有用的知识,因此如何发现各种大型数据库中所隐藏的、预先未知的信息以辅助相应的应用显得尤为重要,这正是数据挖掘所要完成的任务。近年来国外学者提出了一系列的数据挖掘理论,世界上的主要IT公司,如IBM、Oracle及Microsoft等也已相继推出了各自的数据挖掘产品。关联规则挖掘作为数据挖掘的一个重要研究分支,其主要的研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。由于形式简单、易于理解,且是从大型数据中提取知识的主要手段,因此关联规则挖掘的研究与应用已经得到了数据库、人工智能及统计学等领域里的学者的极大关注,并取得了不少的研究成果。与人工智能中的神经网络、遗传算法及统计学不同的是,关联规则挖掘处理的对象是大型的数据集,而神经网络和遗传算法等人工智能方法通常处理的数据对象通常相对较小,且人工智能的方法重在寻找输入输出间的模型,而关联规则的挖掘则是用于发现数据集合中所包含的属性间的规律,其结果不是一个具体的模型而是数量众多的规则。此外,统计学中的方法尽管处理的对象也可以是大量的数据,然而其主要作用是用于确定数据的统计分布或统计模型,而不能描述数据集中所包含的属性间的规律。本文在国家863项目的资助下,主要对含有项目约束的关联规则挖掘、模糊数值约束的关联规则挖掘、优化关联规则的解空间、Web使用挖掘及数值型关联规则挖掘的统计方法进行了深入的研究和探讨,提出了一系列的定义、定理及新算法,解决了若干理论和实际方面的问题。第2章系统地介绍了含有约束的关联规则挖掘的分类,给出了含有约束的关联规则挖掘的定义、定理及算法。从技术的观点详细介绍了其目前的发展状况,给出了关联规则挖掘中(特别是含有项目约束的关联规则挖掘中)相关的定义及名词解释,提出了挖掘含有项目约束的关联规则的一些重要定理,设计了高效的挖掘算法,本文提供的方法可以有效地解决低支持度、长模式的关联规则挖掘问题。第3章利用模糊集理论解决了现有的关联规则挖掘方法中未考虑与项目相关的数值信息的缺陷,提出了含有模糊数值约束的关联规则的定义、算法。将模糊查询和规则模板的概念有机的结合起来,给出了挖掘含有模糊数值约束的关联规则的公式和完整的挖掘方法,给出了相关的实验设计。实验结果表明本文给出的研究方法对于挖掘含有数值约束的关联规则具有一定的指导意义。第4章讨论了如何优化关联规则的解空间的问题。提出了意想不到的关联规则(即对用户来说是有趣的规则)的定义、算法。给出了两类意想不到的关联规则的定义,一类是意想不到的模板规则,本文认为模板规则中的一部分有必要进行更新,以纠正领域知识的偏差,纠正后的模板规则对于以后的挖掘具有非常重要的作用。另外一类是与规则模板后项不同的意想不到的规则,这类规则实际上就是我们最终需要提交给用户的主要结果,即那些事先无法预见的规则。给出了相关的挖掘算法,提出了利用 X‘检验的方法去除那些缺乏相关的项集的方法,提出了利用信息增益对第二类规则进行排序的方法,并指出信息增益越大的规则是有趣度越大的规则。在算法设计时,提出了修改后的Apriori框架,使得生成的频繁集数量得到了大大的减少,从而提高了算法的效率。 第5章给出了对Web日志数据进行挖掘的相关定义及算法作Web使用挖掘\给出了聚合记录、客户记录、及客户序列的定义及它们间的包含关系等,这些定义为进一步的算法设计提供了有力的工具和理论基础。在讨论对Web日志文件进行挖掘的相关算法时,本文充分考虑了时间约束的问题,给出了利用新颖的数据结构oT树)生成备选集的重要方法,这与其他文献中利用散列树生成备选集的方法相比具有很大优越性,第一减少了不必要的节点的生成,因此树的体积变得相对较小;此外,PT树的查找方法更为简单,无需采用散列函数,因此降低了算法的运行时间,提高了效率。设计了相关的实验数据,并用实验说明了所给算法的有效性。 第6章给出了多概念层次的数值型关联规则挖掘定义及算法的框架,多概念层次的数值关联规则挖掘实际上是利用了统计学中的假设检验的方法来确定规则的有趣程度,由于这类规则在提交给用户的时候需要一个比较项,因此有利于用户的理解,同时对它的挖掘可以回避最小信任度门限的指定。介绍了利用修正差值分析作为有趣度评判标准的数值型关联规则挖掘的定义及算法,该算法的优点是既可以发现正相关的规则也可以发现负相关的规则,同时可以避免人为指定最小信任度门限的麻烦,特别是该算法发掘的规则往往是其他算法所忽略的重要规则。本文所有各章的工作均是围绕如何提高关联规则的挖掘效率进行的,所不同的是研究角度不一样罢了。
其他文献
本文选定粒状填料碳化硅,片层状填料膨胀石墨,纤维状填料碳纤维进行单一填料填充天然橡胶复合材料的实验研究,并将三种不同形貌的填料混合起来,研究混合填料对导热橡胶性能的影响
本论文全面介绍了本课题组自行研制开发的“嵌入式实时激光定位系统”的定位原理、软硬件设计及应用技术。作为一种激光定位系统,该系统采用光斑定位技术,以CMOS图像传感器作为
随着我国信息化技术的不断发展,无线传感网络正逐渐应用于桥梁健康监测中,该技术能够实时监测桥梁的运营状态,为准确评估桥梁性能提供数据与技术基础。本文主要介绍了桥梁健
对施蛰存小说的研究,是自他以“另一条路径”进行创作的20年代末开始的,一直以来,对施蛰存小说研究的重点在于从社会、文化、历史的角度去分析其小说形成的原因及其特色,但就施蛰
黄山药(Dioscorea panthaica Prain et Burkill)为薯蓣科(Dioscoreaceae)薯蓣属(Dioscorea)植物,是我国特有的植物。其药用部位为根茎,具有祛风除湿、清热解毒的功效,民间用以治疗胃病
从杜甫中年长期生活的京城长安入手,分析了杜甫诗歌中“中正气象”的具体体现,即杜甫在面对重大历史问题和事件时,表现出有别于其他诗人的不偏激的中正态度,呈现出一派巍峨形
本文主要采取了理论分析和案例分析相结合的研究方法,从我国国有外贸企业的体制改革的历史和现状分析出发,结合对外贸行业存在的一个典型的特殊现象--外贸业务能人现象的系统分
本文在分析生产计划调度的不确定性和复杂性的基础上,结合富达管理信息系统项目开发中的实际问题,对混合型生产的生产计划调度的理论、方法及实现进行了全面的分析和研究,主要研
本文从金融服务贸易入手,认为各国都需面对金融开放。而金融开放对于一国而言,既有现实的、经济上的需要,也是其所承担的国际法义务,特别是世界贸易组织(WTO)在《服务贸易总协定