大图中图元统计量的估算算法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaodehuwei12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图元(Graphlet)是大图中连通的诱导子图,因其广泛的应用吸引着众多研究者的关注。图元的统计量,即图元的数目和比例可以揭示出大图的某些特征,是研究复杂网络的一个很好的切入点。然而现实世界中的网络含有的图元数目巨大,通过穷举的方式获得其准确数量代价巨大,为了能够以较小的代价获取图元估计量,近年来有很多研究者通过采样的方式获得图元数量和比例的估算值。估算图元数量和比例的算法主要分为两类,一类是通过在超图上进行采样的方式,超图中的每一个状态是一个目标图元。这种方式虽然可以拓展到点数比较多的图元上面,但是其运行速度慢,精度低且一般只能估算图元的比例而不能估算图元的数量。另外一种常见的图元估算方法是直接在原图上进行采样,使用这种方式的采样一般先在原图中生成某种特定类型的树,利用采样到的树诱导出的子图作为样本。这种方式的优点是运行速度较快,精度较高,其缺点是只能对含有节点数目较少的图元进行估算,而难以拓展到节点数目较多的图元。本文在分析了以前算法的优缺点的基础上,提出了一种新的图元采样算法SSRW(Scalable subgraph Sampling via Random Walk)。在保持当前最好精度的情况下,顺利地将图元采样算法扩展到了高阶图元上面。SSRW算法的核心是一个十分灵活的子图采样算法,在采样过程中直接在大图上进行采样而不需要其他的辅助算法。从一个已知概率的起始点开始进行图元采样,在采样过程中新的节点从多个已生成的节点的邻居中产生。这种灵活的采样方式使得我们可以采样到目标图元集合中的所有类型的图元。我们还对SSRW进行了扩展,使其可以方便地估算混合图元统计量。同时,我们还对其进行了并行化,使得在相同时间内得到了 50倍数量的样本从而提高效率。而且还进一步提出了提高图元采样算法精度的方法。当我们对在线社交网络进行图元统计量挖掘时,因其具有限制性访问的特点我们无法得到整个网络的拓扑结构,我们将SSRW与当前针对在线社交网络的最新算法相结合,顺利地得到了5节点以上的图元估计量。所测试的6图元比例的估算误差都小于8.5%,大部分所测试的7图元比例的估算误差都小于10%。
其他文献
4K/8K高频视频技术,物联网技术,人工智能,无人驾驶等诸多新技术,改变了人类生活、工作的方式。不同场景新技术的顺利应用使网络流量迅速增长。预计到2021年,全球移动流量将达
本研究旨在通过探究在情感因素(亏欠感和感激感)和中国文化价值观(人情和互惠)的中介作用下,自我构念和关系流动性对接受陌生人恩惠的影响,从而进一步探索中国人在社会交往中
Micro TCA(Micro Telecom Computing Architecture)作为新一代的通信系统,因具有高性能、高带宽和高集成度等优点,在高能物理实验和空间物理探测领域发挥着越来越重要的作用
国家豁免理论发展至今,限制豁免已经明显成为一种趋势,美英法德等西方国家已经积累了大量的国家豁免方面的司法实践经验。管辖限制豁免在实践中的运用必然导致执行豁免的问题
空间衍射是激光非线性传输过程中产生小尺度自聚焦的主要原因,小尺度自聚焦会导致激光离轴方向的能量聚集在某些空间位置。这些空间位置的强度由于能量的聚集而增加,严重时会
随着高中新一轮课程改革的推进,物理学科的重要性越来越凸显,面对越来越多选择物理学科的各层次学生,教材中的常规教学资源已经不能很好的满足教学的需求。特别是偏远学校,生
在非线性光纤光学中,两束初始功率不同的耦合脉冲在光纤中同时传输时,耦合脉冲之间的相互非线性作用导致两束脉冲在时间、空间以及频域都发生了很大的变化,而在这些变化中调
数学源于对现实世界的抽象,基于抽象结构,通过符号运算、形式推理、模型构建等,理解和表达现实世界中事物的本质、关系和规律。以学习数学公理、定理、法则、公式和性质等为
随着互联网技术的迅速发展,数据呈指数增长,这些数据大多以时间序列形式存在,所以面向时间序列数据的挖掘技术与方法受到了广泛的重视。由于时间序列数据存在海量性、高维性
刑事诉讼的工作之一就是惩罚犯罪,虽然刑事诉讼制度早就存在,并且在实践中广泛渗透到每个人的生活之中,但其与个人信息保护之间的关系并没有得到普遍的关注,学界也多以“个人