【摘 要】
:
随着因特网的发展,网络信息量正突飞猛进地增长,人们越来越依赖搜索引擎来准确地获取所需的信息。搜索引擎在为网民提供便捷的搜索服务的同时,也影响着网站的发展前景,所以搜
论文部分内容阅读
随着因特网的发展,网络信息量正突飞猛进地增长,人们越来越依赖搜索引擎来准确地获取所需的信息。搜索引擎在为网民提供便捷的搜索服务的同时,也影响着网站的发展前景,所以搜索引擎的导向作用越来越重要。网页排序算法在搜索引擎服务中起到了核心作用,是人们在面对大量搜索结果时进行筛选的重要依据。本文基于链接结构的分析对搜索引擎排序算法进行了探索和研究。本文介绍了搜索引擎的工作原理,分析了影响网页排名的因素,归纳了现有网页排序算法的特点,总结了目前网页排序问题的不足。针对新网页排序问题和原创网页排序问题进行深入研究,并对这两个问题给出改进算法。在网页排序过程中,现有的排序算法无法解决新网页出现时PR值低但关注度高的问题,本文提出新网页排序算法通过对网页年龄和PR值的比较,对新网页进行排名纠正,弥补新网页出现时PR值不足的问题。并进一步对该问题进行深入分析,引申至PR值抖动造成的排名不准的问题,在PageRank算法基础上,提出具有排名预测功能的F-PageRank算法,根据PR值的抖动进行排名纠正。本文还对原创网页排序问题进行研究,根据PageRank算法结合链接分析提出原创网页排序算法。通过分析网页之间的转载链接关系形成链接树,利用相似度识别盗链,排名时鼓励原创网页,惩罚盗链。原创网页排序算法继承PageRank算法基于链接分析可以离线计算的优势,更具鼓励原创的特点。最后通过实验对本文给出的三种算法与PageRank进行对比分析,验证其可以解决网页排序的实际问题。
其他文献
基于位置的服务极大地方便了我们的生活,寻找附近的好友、推荐附近的热门餐馆等应用无一不包含了基于位置的服务。用户在享受基于位置服务的同时,会不经意地泄露敏感的位置隐
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音
很久以来中医一直依靠指面感觉来体会患者桡动脉搏动处的脉象信息,因此诊断时需借助医师的经验,这样使得其应用和发展都受到了很大的限制。所以,利用现代科技对脉诊进行客观
整个网络中的信息按深度可分成两个层次,表层和深层。表层主要包括“静态网页”,是指以文件形式静态存放在服务器上的数据信息。深层则主要包括“动态网页”,是指隐藏在表单
在很多实际应用中,数据的类别之间存在一种自然的序关系。例如,我们用1~5星去评价一部电影,3星评价高于2星评价,而4星评价低于5星评价。和标称数据不同,我们称这样一类数据为
在多核单机系统上,多个共享资源的线程或进程间的交错执行是不确定的,导致并行软件难以开发、调试,存在安全隐患。为保证线程或进程交错执行的确定性,课题组已提出确定性生产
车牌识别技术在智能交通系统中占有非常重要的地位,车牌识别系统主要包括车牌定位、字符分割和字符识别三大部分。其中,车牌定位和分割的结果对后续的识别起决定性作用,所以
对于领域性的信息检索系统来说,准确率的要求往往是其最为关心的,因为目前通用的信息检索系统对于具有高度领域性的信息来说并不能展现出良好的效果,甚至远远达不到可用的程