基于MapReduce的top-k高效用模式挖掘算法

来源 :计算机应用研究 | 被引量 : 7次 | 上传用户:lidids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效用模式挖掘被广泛地应用于数据挖掘领域。为了挖掘指定数量的高效用模式,一些基于树结构和效用表结构的top-k高效用挖掘算法被提出,但前者在挖掘过程中产生了大量候选模式,后者在效用模式增长时需要进行多次比较;同时,由于在信息社会,数据量呈爆炸性增长,所以在数据集过大的情况下,挖掘高效用模式需以大量存储空间以及计算开销为代价。为了解决这两个问题,基于MapReduce的top-k高效用模式挖掘算法(TKHUP_MaR)被提出。该算法通过两次扫描数据库,利用三次MapReduce来实现并行top-k高效
其他文献
针对当前智能手机应用安全知识等信息的共享及复用问题,采用本体技术实现了智能手机应用本体(application ontology,APPO)的建模。利用本体描述语言(Web ontology language,OWL)对APPO中的概念及概念之间的关系进行知识表示,建立了一个语义表达准确的领域本体;利用本体查询语言SPARQL实现基于RDF三元组的各类相关查询;在此基础上,借助本体推理机制进行了推
复杂网络中最具影响力节点的识别对网络动力学如加速信息的扩散或抑制流言的传播都具有重要影响意义。为了对节点影响力给出具体排序,在已有的各种最具影响力节点识别方法的基础上,提出了一种基于社团结构和k-shell节点法的节点影响力识别方法。其基本思想是利用某个节点处于不同社团的邻居节点的ks值判断节点影响力(称为Nc值),以识别ks值相同的节点的不同影响力。通过单感染源传染的SIR模型进行仿真,发现Nc
为解决大型室内场所高密度用户、高服务质量业务需求问题,在对Wi-Fi布设现存弊端及可见光通信(visible light communication,VLC)技术特点进行分析的基础上,提出了一种室内多个VLC热点与一个Wi-Fi热点混合组网的方案,对混合组网的系统架构进行了设计。同时,在灯的典型正方形布局方式条件下,以10 m×10 m×3 m的房间为例,给出了一种对多盏灯进行分组以改变VLC热点
针对局部线性嵌入算法(LLE)无法利用样本的鉴别信息,最大边界准则算法(MMC)对非线性数据处理能力较弱的不足,提出一种基于最大间距准则的稀疏局部嵌入(SLE/MMC)特征提取算法。在保持局部近邻的前提下,首先在类内紧致图中使同类样本尽可能地聚集在一起;然后在类间惩罚图中使不同类别的样本尽可能分离;最后使用弹性网回归算法得到一个最优的稀疏投影矩阵。为了避免小样本问题,采用MMC的形式构造目标函数。
为适应图数据规模巨大、耦合性强、动态变化等特点,实现大规模图数据的高效分析计算,对图计算系统计算模型的研究现状进行了调研和综述。介绍了图计算系统的产生和发展,然后将主流图计算系统中的计算模型按照计算对象分为节点中心计算模型、边中心计算模型、路径中心计算模型和子图计算模型四类,重点介绍节点中心模型的应用和性能。最后对图计算模型的发展过程进行总结,并展望图计算模型未来的发展方向。
目前常用的室内定位算法在构建指纹库时,因为在参考点处接收到的信号强度值存在噪声值,传统的欧氏距离计算公式忽略信号发射器的稳定程度从而造成定位误差,以及K近邻算法无法根
对跨项目缺陷预测问题展开了深入研究,在源项目实例选择时,考虑了三种不同的实例相似度计算方法,并发现这些方法的缺陷预测结果存在多样性,因此提出了一种基于Box-Cox转换的集成跨项目软件缺陷预测方法 BCEL。具体来说,基于不同的实例相似度计算方法,从候选集中选出不同的训练集;针对这些数据集,进行有针对性的Box-Cox转换,并借助特定分类方法构造出不同的基分类器,最后将这三个基分类器进行有效集成。
许多无线定位应用通过旋转方向天线推测无线信号的到达角度(angle of arrival,AOA),但该类方法在稀疏抽样和复杂环境中定位精度不高。方向天线波瓣曲线的还原实验表明,最大接收信号强度(received signal strength,RSS)附近的波瓣曲线与二次曲线近似。根据这一事实,提出了一种基于RSS二次曲线拟合的AOA定位算法。该算法利用最大RSS附近的数据拟合出二次曲线方程,通
针对面向微博的中文新闻摘要的主要挑战,提出了一种将矩阵分解与子模最大化相结合的新闻自动摘要方法。该方法首先利用正交矩阵分解模型得到新闻文本潜语义向量,解决了短文本信息稀疏问题,并使投影方向近似正交以减少冗余;然后从相关性和多样性等方面评估新闻语句集合,该评估函数由多个单调子模函数和一个评估语句不相似度的非子模函数组成;最后设计贪心算法生成最终摘要。在NLPCC2015数据集上的实验结果表明,该方法
Apriori算法是关联规则挖掘中最经典的算法之一,其核心问题是频繁项集的获取。针对经典Apriori算法存在的需多次遍历事务数据库及需产生候选项集等问题,首先通过转换存储结构、消除候选集产生过程等方法对Apriori算法进行优化;同时,随着大数据时代的到来,数据量与日俱增,传统算法面临巨大挑战,将优化的Apriori与Spark相结合,充分利用Spark的内存计算、弹性分布式数据集等优势,提出了