基于二维划分的杰卡德相似系数批量计算效率优化

来源 :计算机科学 | 被引量 : 0次 | 上传用户:taishengqi_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;并通过参数调整、内存优化等方法进一步提高了算法的执行效率。两组数据集分别在3组不同规模的集群上的实验结果表明,与MapReduce相比,Spark平台下的算法执行效率提高了4倍以上,能耗效率提升了3倍以上。
其他文献
凌华科技推出一款ExpressCard到PCI的扩展系统ECS-8582—4S,通过最长达7米的电缆,可为具备Express-Card接口的计算机主机扩展最多达4个5V/3.3V PCI扩展槽。凌华科技ECS-8582—4S
现有Ad hoc网络中基于身份的认证和密钥协商方案是基于双线性对实现的,计算开销较大,并且存在密钥托管问题。针对该问题,提出了一种新的基于身份的认证和密钥协商方案。方案
为了解决宽带数据采集中由于传输线延时不一致造成的数据误采集的问题,首先从数据传输线电平转换机理人手分析了这一问题的原因所在,在此基础上,给出了估算采集对钟相位失真程度
分析了路径损耗因子对802.11无线局域网的干扰与载波监听性能的影响,揭示了增大路径损耗因子的优势。基于SNR阈值模型和固定的载波监听阈值,分析了802.11a/b/g/n的主要比特速
针对远程通信服务器需要并行处理多级别数据报文的特点,结合Java NIO、数据批处理、数据库连接池、锁机制等技术,提出一种高并发UDP通信服务器模型。详细设计了数据报接收、
社团结构是复杂网络的一项基本特性,对复杂网络中社团结构特别是重叠社团结构的检测,是复杂网络理论研究的一项重要且充满挑战的课题。对当前常用的重叠社团检测算法进行了分
通过一种新的可视化定义报表方法,用户可根据需要灵活定义报表样式,并利用XML实现动态创建数据表;在此基础上配置数据源及其字段与报表单元格间的关系,系统将据此自动拼装出
对丝网印刷电极及其应用于电化学发光检测的功能化及信号放大修饰进行综述,归纳了该检测体系在抗体、核酸、氧化酶底物、肿瘤细胞、病原菌、抗生素等物质检测中的应用,最后对
传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则