图挖掘算法的研究与应用

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lf740047016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交网络的兴起,图挖掘越来越受到研究人员的重视,有关图挖掘研究的论文在SigKDD、ICDM、SiamDM等会议中有逐年递增的趋势。极大团挖掘是图挖掘中的一个基本问题,有着丰富的研究意义与极高的实践价值。如进行社交网络分析、利用邮件网络推断社会等级、研究行为与认知网络的结构、对金融网络进行统计分析、对动态网络进行聚类、侦测各种恐怖活动和紧急事件等。本论文以极大团算法的研究为切入点,对这一基本的图挖掘问题进行了理论上的研究并给出了其实践中的应用。论文的研究主要分为三大部分:1.研究并实现了 Base BK算法、Improved BK系列算法和Kose系列算法,对部分算法进行对比实验,分析算法的适用场景与时空优劣。首先分析Base BK算法,这是最早的一个使用递归方式挖掘极大团的经典算法。进而研究Improved BK系列算法,这些算法致力于解决Base BK算法递归空间树规模过于庞大的问题,提出了各种启发式选择标志节点的方法对Base BK算法的递归空间树进行剪枝。其中著名的是最小计数器版本的Improved BK算法和随机CANDIDATES&NOT版本的Improved BK算法,论文都有理论分析与实现。也研究了 Kose系列算法,Kose算法使用迭代方式挖掘图中的极大团,虽然避免了生成不必要的子团,却导致内存消耗急剧增大。由此衍生了 Kose RAM算法和Kose Disk算法,它们分别将中间数据存入内存和硬盘,所以耗费的内存不同。本论文研究并实现了 Kose RAM算法。最后取七个经典的极大团挖掘算法,在单进程模式下实现,在相同的实验环境下做了 1000多个实验,根据实验结果反馈分析算法的原理并给出了不同环境下如何选择极大团挖掘算法的建议。2.研究FAMCELM算法,指出使其运行失效的场景,进而提出受限内存下的解决方案,并以理论和实验证明算法的可行性。Fast Algorithms for Maximal Clique Enumeration with Limited Memory 论文提出了在大规模图中挖掘极大团一个分布式的算法。这一算法有着三大优势:适用于内存有限的场景、减少了挖掘极大团的机器的CPU消耗、可以在并行环境下实现。研究中发现,面对图中存在度极大的节点的情形,论文中的SeqMCE算法会失效。分析了产生这个问题的原因,给出了解决这一问题的一个方案及严格的理论证明。在对SeqMCE做了其他的优化后提出了 Improved SeqMCE算法,这一算法解决了遇到度极大的节点的问题,代价则是重复挖掘了部分全局极大团。最后在内存受限的场景下运行Improved SeqMCE算法,从而证明其在实践中的可行性。3.依托于Improved BK算法和Improved SeqMCE算法,为解决统计段时间内不同的发送垃圾短信的手机号码总数的问题,提出了基于先验概率的Hash算法——GHash算法。作为算法的预处理部分,首先需挖掘出等长字符串(场景下则是手机号码)的统计规律。论文将字符串的各个位置抽象成一个图的节点,创造性地将挖掘统计规律的问题转化成寻找极长链的问题,进而转化成在其传递闭包中挖掘极大团的问题。在使用Improved BK算法挖掘出图中的极大团后,再将节点映射回原字符串的相应位置,从而得到原字符串的统计规律。为解决极大团挖掘算法为NP问题,算法耗时过久的问题,又提出了通过计算信息熵从而得到统计规律的一个子集的替代方案,这在手机号码的场景下运行良好。在一个有着3000多万手机号码的数据集上的实验表明,GHash算法所占用的内存远小于使用Bitmap算法所占用的内存;速度上则远快于使用AVL树、红黑树和Trie树完成检索的场景;相比较布隆过滤器,GHash算法是1000%准确的;相比较传统的部分Hash算法,如djb2、fnv-1、sdbm等,GHash算法无论是运行时间还是冲突数,都有明显的优势。
其他文献
背景与目的:三阳性乳腺癌(Triple positive Breast Cancer,TPBC)作为一种特殊的乳腺癌分型,以ER/PR/HER-2均阳性表达为特征,对化疗、靶向治疗、内分泌治疗都具有敏感性。理论
我国拥有丰富的福建山樱花种质资源。福建山樱花在中国南部有丰富的基因源,然而至今尚未见对野生福建山樱花遗传多样性系统研究与评价的报道。本研究分别采集福建、广西、台
近些年来,随着绿色环保发展理念的深入,水电建设正因其绿色环保的特点而在我国发展迅速。随着水电建设的深度发展,水电站建设进一步向地质条件复杂的高山峡谷推进,在场地狭小、高地应力和大断面的条件下的开挖施工,难度越来越大,高地应力下特长大断面隧道的爆破施工已经成为不可避免的问题。研究并解决这一问题一方面具有重要的理论意义,另一方面也能为类似工程提供经验。本文以锦屏二级水电站引水隧洞开挖为工程背景,通过理
太赫兹电磁辐射是指电磁波谱中频率在太赫兹范围的电磁辐射,通常是指0.1 THz到10 THz波段,介于微波与红外之间。太赫兹电磁辐射(1 THz)对应的波长是300μm,波数是33.3 cm-1,
从一般原则,设备的接地,接地电阻的测量方法等方面,总结并给出了C&C08交换设备接地的规范,旨在提高电气工程施工的质量。
审慎、真诚是思辨的态度,清楚、明白是思辨的要求。这是思辨作为一种习惯应有的行为准则,也即思辨性写作的基本追求——慎思而明辨。思辨性写作要审慎地确立观点,思辨的前提
本文研究内容为‘863’国家高技术研究发展计划项目第三子专题《精细地面灌溉集成技术》(项目编号2002AA224311-3)的部分内容。地面灌水技术(如畦灌、沟灌、格田灌、漫灌等)
在风洞实验中,高温环境会对器件造成严重损坏,为保证器件工作的可靠性、提高器件的使用寿命,必须在器件的设计过程中,考虑真实工作环境对其产生的影响。然而,仅根据温度指标来衡量工作环境的恶劣程度是不准确的,还要借助能够表征温度梯度变化的热流传感器来实现对工作环境的准确描述。热流传感器的体积是影响热流测量准确性的重要因素,体积大会干扰热流实际的传播路径,从而使测出的数据与真实情况不符。但是减小热流传感器的
随着城市化进程的加速,城市文化与农村文化的冲突越显突出,而这两种不同的文化冲突给城市化的进程及未来城市的发展带了巨大的破坏力。要解决这些冲突,我们只有寻找两种文化