论文部分内容阅读
Internet使人们在信息资源共享和沟通交流的范围和方式上得到了极大的拓展。当传播手段不再成为瓶颈的时候,信息交互者对信息的理解和需求差异成为信息沟通的根本障碍。这种资源规模海量化与信息需求差异性造成的信息获取的困难,是Internet面临的越来越显著的问题。信息网络的研究,针对Internet中的各种形式的信息载体之间的相互联系进行研究,发现其中的内在联系和基本规律,发挥计算机的计算与信息处理的优势,为用户提供多种方式的有价值的评估与参考。搜索引擎等挖掘服务可以高效定位信息资源,Rank相关技术对于其挖掘质量有较大影响。人们研究发现,Internet中网络的度分布具有无尺度特性,这种结构的异质性可以为Rank相关问题提供有价值的内在信息,其有效性已经被搜索引擎等一些应用所证实。本论文介绍了我们在信息网络提取分析及Rank相关问题方面的一些研究工作。我们的工作主要针对WWW页面发布系统与新闻组讨论系统进行。在WWW系统方面,我们建立了Spider系统,并利用其获取了校园网有关数据,并从中提取了页面和站点层次的链接关系网络。利用链接关系网络,我们对网络的分布特性和连通特性等方面进行了研究分析;为解释网络中的幂率特性,建立了链接倾向性与内在适应性模型分析这两种因素对于幂率形成的影响;基于链接关系网络,本文提出了一种对Web页面进行快速Rank的ExpRank算法。在新闻组方面,我们编制了bot程序获取数据,并从中提取了参与者与线索关系网络以及邮帖回复关系网络,分析了数据集中的幂率分布特性。基于新闻组讨论系统的特点,提出了利用参与者和线索关系网络获得参与者和线索的IFP和IFT的方法;提出了基于邮贴回复关系网络的邮帖PostRank算法,对提出的算法含义及特点进行了讨论分析,并利用所获数据集进行了信息挖掘的相关试验。本论文研究工作对于信息网络的理解和Rank相关应用具有较好的参考价值和实用意义。