高维大规模网络的结构估计

来源 :西北大学 | 被引量 : 1次 | 上传用户:zhongsichuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算和数据采集技术的发展,在各个应用领域中积累了大量复杂数据.这些数据中往往蕴含着直接或潜在的网络(图)结构.网络数据分析已成为近年来统计、生物信息、统计物理等领域的研究热点之一.现实世界中的网络通常具有无标度特征、社区特征、动态特征,并且往往规模大,同时伴随很多额外的数据信息.如何有效利用网络数据的特点分析和挖掘其背后的本质信息具有非常重要的科学意义.本学位论文聚焦于大规模网络的结构估计问题.特别地,我们关注于两大类问题.一类问题是网络结构未知,如何有效利用数据信息估计网络的结构,即网络的边.在图模型框架下,我们从数据包含协变量、网络具有无标度特征、网络为动态且有社区结构这三个方面开展研究.另一类问题是网络结构已知,如何高效发现大规模网络的社区结构.在随机块模型框架下,我们聚焦于谱聚类并利用随机化技术开展研究.具体地,主要获得了如下研究成果:1.提出了具有协变量的有向图模型.通过将变量之间的因果关系表示为协变量的线性组合,从而将协变量有效引入模型中.在基于l1的稀疏正则化框架下估计参数.在算法方面,基于有向无环约束,给出了问题求解的坐标下降算法.在理论方面,在节点次序已知的情形下,证明了估计的高维变量选择相合性.大量模拟实验表明了所提方法的有效性,并将其应用于肺腺癌数据,得到了可解释的结果.2.提出了无标度网络的结构估计方法.在正则化框架下,通过Log和l1复合的惩罚函数引入网络这一结构先验.在算法方面,给出了问题求解的坐标下降算法,并讨论了算法的收敛性.在理论方面,证明了估计的相合性.实验表明所提方法表现良好,优于重赋权迭代算法.所提方法尤其适用于样本少、信号强度弱的情形.另外,所提方法具有一定的稳健性,适用于除无标度网络之外的其他多种复杂网络结构.3.提出了具有社区特征的动态网络的估计方法.在正则化框架下,利用Fused lasso惩罚函数融合每个时间节点对应的数据信息,并通过对网络中边对应的参数施以不同的惩罚从而使所得网络具有明显的社区结构.我们给出了模型理论上的解释,并给出问题求解的ADMM算法.将所提方法应用于PM2.5数据估计城市之间的PM2.5污染网络以及社区,所得结果具有一定的可解释性.4.利用随机化技术提出了社区发现的两种随机谱聚类算法,分别为基于随机投影和基于随机抽样的随机谱聚类算法.在随机块模型框架下,从总体矩阵的估计误差,错误聚类率,连接概率矩阵的估计误差这三个方面给出了两种随机谱聚类算法对应的非渐近误差界.结果表明,在一定条件下,随机谱聚类的理论界与原始谱聚类的相关结果一致,从而说明了随机谱聚类的价值.模拟实验和实际数据实验表明了理论的有效性.
其他文献
型理论是高阶逻辑,模糊型理论是对型理论模糊化的结果.因此,模糊型理论是高阶模糊逻辑.EQ-代数是高阶模糊逻辑所对应的真值代数结构,它的提出为模糊型理论提供了更为一般的真值代数结构.本文对基于模糊型理论的逻辑与代数系统进行研究,包括:EQ-代数的前滤子的根理论、monadic EQ-代数及其对应的逻辑系统、相等命题逻辑及其扩张系统.研究内容及创新点简要概括如下:1.利用代数的方法处理模糊型理论可证公
特殊矩阵是矩阵论中重要的一部分,一直是学者们感兴趣和不断研究的课题.本文将运用组合的一些方法,特殊矩阵的结构及相关性质,并结合数列及多项式的性质,研究特殊矩阵的谱范数以及Chebyshev多项式和Legendre多项式的一些算术性质.主要内容如下:1.研究了包含广义k-Horadam数的几何循环矩阵和r-循环矩阵新的较好的谱范数上下界估计;参数r取值为r=1时,即可得到关于广义k-Horadam数
众所周知,关于二项指数和的研究一直以来都是解析数论研究的重要课题,旨在研究其上界估计问题.本文利用二项指数和的性质,结合特征理论以及同余理论,研究一类特征和的递推性质、二项指数和的均值以及特征和与二项指数和的混合幂均值问题.作为应用,进一步研究Lucas多项式的幂和问题及其整除性质,以及同余方程解的问题.确切地说,研究的主要内容归纳如下:1.第二章研究了一类特征和Ak(h,χ1,χ2,…,χk;p
抗生素的过度及不规范使用造成的细菌耐药性已经严重威胁公共健康安全,是目前世界卫生组织密切关注的问题。细菌耐药的主要机理之一是生产金属β-内酰胺酶(Metallo-β-lactamases,MβLs)。因此对MβLs的实时监测与抑制具有极其重要的应用价值。本论文从MβLs活性监测、活性抑制、结构解析等方面进行了以下四部分工作:1、发展了一种简单且无损的UV-Vis方法,用于耐药细菌活菌体内MβLs的
改革开放以来,中国城市化高速发展。郊区作为以服务城市为主要功能,与城市联系密切的城乡过渡区域,随着城市规模的迅速扩大和城市用地的不断扩展,其功能内涵和空间范围也在不断变化。郊区的过渡性,决定了其发展的复杂性和多样性,使之成为统筹城乡发展、推进新型城镇化和保障粮食安全等多个宏观战略实施的空间载体,从而使郊区功能及其空间在多重因素的作用下发生着复杂的演化过程,准确把握这种演化规律,有利于科学的引导城乡
过渡金属(钯(Pd(Ⅱ)、铑(Rh(Ⅲ))催化C3位含导向基的吲哚类化合物,其C4位发生官能团化(氟烷基化、烯基化)可能的反应机理,进行了系统的理论研究。主要研究内容:反应中酸性添加剂扮演的角色、不同导向基对反应产率的影响及导向基的电子效应与吲哚2,4位区域选择性之间的关联。第一章综述了吲哚类化合物的应用前景、合成方法和官能团化衍生物,介绍了一类重要的吲哚衍生物---4-取代吲哚类化合物官能团化的
伪随机序列在数字模拟、软件测试、扩频通信系统、伪码测距、全球定位系统、信道编码、码分多址(CDMA)系统、无线通信系统,数字通信系统以及诸如雷达系统和流密码加密系统的密码学等领域中都有着重要的应用,因此得到了广泛而深入的研究.伪随机序列的构造和随机性分析是密码学领域的核心问题.分圆理论在密码学中具有广泛的应用,一个典型的应用是伪随机序列的设计.本文基于模pq,pn+1,pm+1qn+1的广义分圆类
我国北方农牧交错区是阻挡西北部沙漠向东南入侵的重要生态屏障;近年来,该地区受气候暖干化和人类活动的共同影响,自然灾害频发,已成为一个生态环境脆弱区。在乡村衰退已是全球可持续发展面临的挑战背景下,集干旱灾害频发、贫困集聚、多民族聚集、生态脆弱的北方农牧交错区乡村人地系统变化表现更加剧烈,成为乡村人地关系深刻变革的典型区,也是我国乡村振兴战略实施的重点与难点地区。北方农牧交错区乡村人地系统具有哪些特征
含氮化合物广泛存在于具有生物活性的天然产物、合成中间体、药物分子、农药领域以及功能材料当中,并且是很多化工产品的重要原料及组成成分,与我们的日常生活息息相关。因此,发展高效、经济、绿色环保的碳氮键构筑策略始终是化学家们研究的热点。相比传统的合成方法,钯催化的碳氢键亲电胺化是构筑碳氮键最有效的手段之一,近年来得到了广泛的关注和深入研究。本论文立足于钯催化的碳氢键亲电胺化反应,旨在发展一类高效、简洁的
非线性系统中存在许多复杂的非线性波激发结构,这些复杂的激发通常是由多种基本非线性激发的非线性叠加形成的。因此研究非线性系统中基本非线性激发的产生机制和激发条件对于非线性波的实验实现、动力学特征的探测和应用以及对非线性系统中复杂的激发特征的深入理解是至关重要的。本文立足于已有的实验和理论研究结果,在描述光纤中光脉冲传输的一类非线性薛定谔模型中,利用Darboux变换和线性稳定性分析等解析方法以及积分