论文部分内容阅读
如今,网络数据在社会科学、生物学、经济学和计算机科学等许多领域都很常见。研究网络的生成机制,探索网络结构的各种性质,具有重要的意义。许多网络模型被提出来研究网络数据的特征并对网络数据进行拟合。网络数据的非标准结构使得统计推断变得困难,特别是在渐近理论中。本文主要研究网络模型中的三个问题,如下所述。
首先研究了p0模型中所有极大似然估计(MLEs)线性组合的渐近分布。p0模型是一个指数随机图模型,其中双度序列是唯一的充分统计量。在p0模型中,极大似然估计量的一致相合性和具有固定数目的极大似然估计量的渐近正态性被证明。在之前的工作基础上,本论文进一步得到了网络边取二值、连续值和离散值时,所有维数为递增的MLEs线性组合的中心极限定理。模拟研究被用来说明理论结果。
其次,我们研究了对数线性模型与隐式对数线性模型的等价问题。逻辑线性模型实际上是p0模型。我们使用“逻辑线性”这个符号,因为它有一个逻辑线性表示。隐式对数线性模型可以看作是期望度模型的有向版本,其中顶点i和j之间的边形成概率pij为di+b+j/g++,其中di=∑j≠iai,j为顶点i的出度,bj=∑i≠jai,j为顶点j的入度,∑ni=1di=∑nj=1bj=g++。由于指定的边缘概率依赖于观测数据,因此该模型是隐式的。在无向情况下[102]证明:在稀疏有限样本条件下,这两个模型在本质上对链路概率给出了相同的概率估计。在此,我们证明了在某些稀疏条件下,逻辑线性模型中的极大似然估计与隐式对数线性模型中的显式估计之间的渐近等价性。模拟研究和实际数据分析验证了理论结果。
第三,我们研究了如何在社区检测中选择社区数量。在网络数据分析中,将图划分为多个小区是一个非常重要的问题。利用图的贝氏黑森(Bethe Hessian)矩阵和非回溯矩阵的特征值来确定社区的数量。我们提出了一种改进的方法,它可以比其他方法更好地估计社区的数量。模拟研究和实际数据应用比较了提出的改进方法与其他方法。
首先研究了p0模型中所有极大似然估计(MLEs)线性组合的渐近分布。p0模型是一个指数随机图模型,其中双度序列是唯一的充分统计量。在p0模型中,极大似然估计量的一致相合性和具有固定数目的极大似然估计量的渐近正态性被证明。在之前的工作基础上,本论文进一步得到了网络边取二值、连续值和离散值时,所有维数为递增的MLEs线性组合的中心极限定理。模拟研究被用来说明理论结果。
其次,我们研究了对数线性模型与隐式对数线性模型的等价问题。逻辑线性模型实际上是p0模型。我们使用“逻辑线性”这个符号,因为它有一个逻辑线性表示。隐式对数线性模型可以看作是期望度模型的有向版本,其中顶点i和j之间的边形成概率pij为di+b+j/g++,其中di=∑j≠iai,j为顶点i的出度,bj=∑i≠jai,j为顶点j的入度,∑ni=1di=∑nj=1bj=g++。由于指定的边缘概率依赖于观测数据,因此该模型是隐式的。在无向情况下[102]证明:在稀疏有限样本条件下,这两个模型在本质上对链路概率给出了相同的概率估计。在此,我们证明了在某些稀疏条件下,逻辑线性模型中的极大似然估计与隐式对数线性模型中的显式估计之间的渐近等价性。模拟研究和实际数据分析验证了理论结果。
第三,我们研究了如何在社区检测中选择社区数量。在网络数据分析中,将图划分为多个小区是一个非常重要的问题。利用图的贝氏黑森(Bethe Hessian)矩阵和非回溯矩阵的特征值来确定社区的数量。我们提出了一种改进的方法,它可以比其他方法更好地估计社区的数量。模拟研究和实际数据应用比较了提出的改进方法与其他方法。