网络搜索引擎的相关技术研究

被引量 : 0次 | 上传用户:darling1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络搜索引擎(如google、百度等)作为一种特殊的信息检索系统,其特殊之处就在于它的检索范围是针对整个Web网页资源的。互联网上的信息资源数量巨大、并且处于不断地变化更新当中,最为重要的是Web网页文档本身是半结构化或无结构的,其中经常包含导航、广告信息、无用链接等与网页主题无关的内容,其复杂程度远高于普通的文本文档。而一般的信息检索系统(如文献检索系统)大部分都是基于空间向量模型而设计的,无法适应Web资源的以上特性,这就使得网络搜索引擎与基于空间向量模型的信息检索系统在工作原理上会出现很大的不同。本文着重从索引建立、查询扩展、相关网页排序三个方面来阐述它们的不同之处。本文的主要内容是:详细介绍了网络搜索引擎索引组织结构,并针对Web网页中包含有大量无关信息如广告、导航等影响索引的效率的问题,给出了网页预处理及文本提取的实现算法,去除了Web网页文档中的重复网页、噪音内容以及噪音链接,提高了搜索引擎的索引效率。本文提出了结合用户兴趣和服务器端日志发掘的相关搜索的实现算法。针对传统PageRank算法会出现“主题漂移”现象,带来许多与用户所需信息无关的噪声信息的缺点,本文提出了基于页面主题相关性的PageRank算法,从网页的超链接、网页内容以及用户点击行为三个方面判断网页文档与查询主题相关性,进而避免出现过多的与检索主题不相关的网页信息。最后本文提出了一种自动摘要的实现算法,通过计算网页文档中每个句子的权重值,得到最能表达该网页主题内容的句子作为摘要反馈给用户,方便用户直观、快速地获取网页文档的主题内容,从而不断改进搜索关键词,检索出所需要的网页信息。
其他文献
<正>随着企业品牌竞争的加剧和"眼球经济"的溢出效应,植入式营销的覆盖范围日益广泛,但其出现最频繁的仍是传媒影视领域,因为这些领域既是企业品牌竞争的制高点,也是催生植入
内化跨国公司转移技术为我国制造业技术基础储备,已成为提升我国制造业绿色创新系统绿色创新绩效的重要手段。本文在考虑跨国公司技术溢出、绿色创新系统社会资本和绿色创新
<正>步道北段穿行我国最大的国有林区,该区域是以兴安落叶松为主的寒温带针叶林区。曾有人这样描述大兴安岭:"风来时,大兴安岭是动感的翠玉;云来时,大兴安岭是迷人的锦屏;雨
基于1980-2012年山东省能源消费统计数据的研究发现,山东省能源消费具有持续增长的演进特征和显著的结构特征。1980-2012年,一次能源消费总量增加了7.18倍,年均增长率21.77%;
在对我国低碳技术进行分类分析的基础上,提炼出三大问题:产业发展超前压缩了技术创新空间、低碳技术系统性发展差和成本和信息障碍。有针对性的提出四条建议:(1)调整扶持政策
随着信息技术的迅猛发展,互联网技术的普及与应用,特别是物联网的出现;改变了人们几千年形成的信息传递方式、人际间的沟通方式和社会管理的组织方式,还影响着人们的生活和政府的
介绍了WiMAX中802.16e标准采用的结构化分块的LDPC编码技术,阐述了码的结构和编码方式。文中采用对数似然比置信传播作为译码算法,在AWGN信道条件下进行了仿真。仿真结果表明
随着全球经济的深刻变革,企业的生存环境发生了巨大的变化,管理者更加关注企业长远的目标和整体价值的增值。基于价值的管理(Value-based Management,简称VBM)正是在这样的背
为促进数据挖掘开发及其商业应用,采用云计算技术、领域工程和数据挖掘等技术,结合领域驱动设计和云计算框架,提出了一种面向领域的数据挖掘云平台框架,并阐述了云计算环境下
随着汽车工业的快速发展以及由此引发的能源危机和环境问题,以电动汽车为代表的新能源汽车逐渐成为汽车产品未来发展的新趋势,而锂离子动力电池以其优越的电池性能和比较优势