网页爬虫技术的关键技术研究探索

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:loveni978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,使得网络上各种数据信息呈现出几何增长的趋势,以往搜索数据的工具越来越跟不上时代的潮流,查找效率低、成本高的缺陷日益凸显。爬虫技术实现所用到的算法是搜索引擎的关键技术,算法性能的优良决定着搜索引擎的搜索精度和搜索效率。对于互联网中数据的数据量大、数据类型多、实时性要求高的特点,对各种爬虫算法的优缺点进行分析,该文设计使用多线程机制的爬虫算法,可以提高网页的查全率。
其他文献
利用Microsoft Visual Studio.NET集成开发环境、基于ArcObject的GIS嵌入技术和SQL Server数据库设计,开发了结构合理、功能齐全、具有很强实用性的汉江流域洪水预报系统。在
从中国的传统人物画到现代的水墨人物画,经历了一段漫长的历史时期,不断的在“形”与“意”之间的问题中犹豫与徘徊,不断的探究他们之间的关系与表现方法。“五四”新文化运动之
在现代教育中,我们大多数都是力推素质教育,而这就要求我们必须要改变以前那种从古至今流传下来传统的教学方式,我们可以很明显的看到这些传统的教学的方式已经不适应现代这
简要概述了中心点法的基本思想。基于可靠度的分析,考虑了岩土体物理力学参数不确定性的影响,采用中心点法对核桃树沟滑坡进行稳定性分析计算,并与其它评价方法结果对比。理
钢箱加固法是在钢—混凝土组合梁基础上发展起来的一种新型加固方法,结合了粘钢加固法和增大截面加固法的优点。钢箱加固法首先在梁底锚粘由钢板焊接成的H形钢套箍,然后在H形
<正>在和许多农村初中的语文教师交谈中,他们流露出这么一种无奈,就是初中生的作文能力太差。面对教师的命题,这些农村的孩子往往是窘状百出,或者是望着天花板发呆,或者是冷
【正】 花一花开放不是春,万紫千红才是春。在花当中,有更好的花,如牡丹,但我们仍然要百花。花,只要是花,不管它是其中的哪一种,都有其长处和特点.谁也没有因为喜爱一种花,就
采用马尔可夫链方法,定量分析坝基地层沉积旋回特征,得到坝基软弱夹层的发育特点及沉积规律,并将其分为3类:Ⅰ岩块岩屑型、Ⅱ岩屑夹泥型、Ⅲ1泥夹岩屑型和Ⅲ2全泥型。结果表
研究目的:医疗纠纷问题己成为困扰医院正常诊疗秩序和影响医务人员正常工作甚至安全的社会难题。笔者通过对研究医院既往医疗纠纷投诉情况及对临床医生纠纷诱发因素认知情况
脂质代谢包括脂类在小肠内消化、吸收,由淋巴系统进入血液循环,经肝脏转化,储存于脂肪组织,需要时被组织利用。脂质是人体能量的一个重要来源。脂质代谢紊乱是先天性或获得性