基于约束的频繁模式挖掘方法以及应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mrcena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于约束的频繁模式挖掘是数据挖掘研究中最基本问题之一,具有广泛的实际应用。然而,在这个研究领域中,仍然存在三个方面的挑战:(1)如何拓展新的应用?具体而言,除了模式的“支持度”,怎样设计一些新模式指标更好地去度量模式的兴趣度,以满足新应用的需求;(2)和模式支持度的反单调性不同,所提新模式指标的性质通常都比较复杂,比如它不满足单调性、反单调性、可转换性、简明性等。那么对一个模式,如何快速计算其所有父模式关于该指标的上/下界,并利用这个新模式指标的特性设计出高效算法;(3)通常,不同的应用,有不同新模式指标的提出,然后分别提出不同的模式上/下界的计算方法。那么有没有一种通用方法可以计算任一模式指标的上/下界?针对以上问题和挑战,本文开展了基于约束的频繁模式挖掘的方法及其应用研究,主要成果及贡献如下:首先,提出了一个基于模式挖掘的网页内容推荐方法。网页内容推荐就是从网页中找到重要的内容块组合推荐给用户,有着很多的应用(比如网页智能打印、移动设备上的电子阅读等)。目前有许多的方法试图去解决这个问题,但在这些方法中,要么就是针对于特定网页(比如新闻、博客类的网页),要么就是半自动化的(用户需要额外的操作去选择网页的内容块)。针对于任一类型的网页,如何全自动地提取网页中的有效内容,目前还没有得到很好地解决。为此,本文利用之前用户对相似网页的选择方式,将该问题形式化成一个模式挖掘推荐问题,提出了一个基于模式挖掘的网页内容推荐方法,可以为任一类型的网页提供更加准确的网页内容推荐。具体而言,推荐给用户的内容块组合(模式)不仅要频繁被其它用户选择,而且要越完整越好。鉴于此,本文提出了一个新的模式兴趣指标,即占有度,来衡量模式在其支持数据库上的完整度。结合模式的支持度和占有度,可以提供给用户更加准确、满意的网页内容推荐。最后,同基准方法比较,在真实的数据集上的实验结果表明所提方法能取得更加满意的推荐结果和运行效率。其次,提出了一个基于占有度的频繁模式挖掘通用高效算法。本章分别对占有度的定义、界估算方法以及应用三个层面进行深度扩展。具体而言,基于不同的加权平均(算术平均和调和平均),提出了两种不同的占有度定义,即算术占有度和调和占有度。与模式支持度的反单调性不同,占有度的性质即不满足单调性、反单调性,又不满足可转换性、简明性,那么对一个模式,如何快速计算其所有父模式关于占有度的一个上界?为此,对于每一种占有度定义,本文分别提出了三种上界:高效、最‘紧’和折中上界。高效上界对于单个结点计算比较高效,但是比较松散,需要搜索结点数比较多;最‘紧’上界得到的界比较紧凑,因而搜索很少的结点,但是计算单个结点比较耗时;为此,本文提出了一个折中上界,在松紧度和计算复杂度之间达到一个均衡,使算法整体性能达到最优。占有度的概念不仅对于事务数据库上的应用很重要(比如网页内容打印推荐),而且对于序列数据库中上的应用也非常重要(比如旅游餐景点推荐),为此,本文提出了一个通用算法DOFRA可以同时处理不同类型数据库上的应用。最后,在两个实际应用中验证了DOFRA的有效性,同时也在大量的合成数据中验证了DOFRA算法运行效率。最后,提出了一个通用模型可以高效估算任一模式指标的上/下界。基于约束模式挖掘不仅有助于捕捉更多的模式的语义信息,而且还可以利用约束的性质进一步地提高挖掘效率。在一些实际的应用驱动下,通常会提出一些新的模式指标去度量模式的兴趣度,然后分别估算所提模式指标的上/下界,缺少一个适合于任一模式指标的统一框架。为此,本文形式化了只考虑项标记的界估计问题,提出了一个通用模型可以高效解决这个问题。为了更加直观地展示所提通用框架的有效性,本文给出了两个非常典型的模式指标作为学习案例,即模式效用和模式占有度。除此之外,为满足不同的应用需求,本文把传统的基于SQL的模式指标,比如min, max, avg, var等,给扩展成了相对模式指标形式。最后,在真实和合成数据上的实验分析验证了该技术方案的通用性和有效性。
其他文献
基层纪检委员是党的纪检干部队伍的组成部分,因多为兼职,且流动较快,工作中还存在着身份意识不强、职责定位不清、能力素质不适应等问题。要进一步加强基层纪检委员队伍建设,
对等网络(Peer-to-Peer Network, P2P)是一种分布式网络,构建在物理网络之上的逻辑覆盖网络,网络上的各台计算机有相同的功能,互相共享各种资源。虽然被大量研究,但是由于网
中国石化集团公司大力推进构建“大监督”格局,深化全面从严治党,持续深化细化系统内企业的监督力度,靠制度管人、管事、管权,推动政治生态持续好转。机械公司贯彻落实集团公
随着临床对诊断要求的提高,医院检验科的学科建设和检验管理显得越来越重要。检验科作为一个医技科室,其检验质量的高低直接决定了病人能否及时得到救治。而现阶段检验科人员
目的探讨四枚螺钉固定Pauwels Ⅲ型股骨颈骨折的生物力学特性与临床疗效。方法建立Pauwels Ⅲ型股骨颈骨折的三维有限元模型,分析3种固定方式(组1,平行三枚螺钉;组2,横向结合
多Agent系统(Multi-Agent System,MAS)对于网络环境下的分布式智能信息处理具有重要的意义。但是,目前MAS的研究和应用仍然在基础架构、方法学、可重用性、交互协作等方面面临
说起"茶痴"这个惭愧的绰号,已与它失散多年,没想到的是正月十五的那个清晨收到了江南一位前辈的来信,信中问到我"对茶文化的这种执着是否有些痴迷".当时的我感到惊讶!莫非这
期刊