特定新闻门户网站的信息获取

被引量 : 0次 | 上传用户:juwenfeng163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,人们获取信息的方式渐渐从纸制阅读的报纸、杂志、书籍转化为互联网的电子阅读,与此同时,各传媒企业也逐渐把重心调整到电子传播方式上,例如新浪、搜狐等门户网站的兴起,使得网络的信息传播更加复杂多样且数量繁多,往往一个网页就包含了各种类型的信息,浪费用户大量时间,给用户查看新闻内容带来不少的麻烦。为了使用户更方便的查阅网络信息,本文设计了一个特定新闻门户网站的信息获取系统。在此系统上,我们可以提取并显示新闻网站上的主要信息而避开其他类型信息(如广告信息)的干扰,使用户的阅读更具目的性,便于用户的信息阅读。主要工作包括:1)针对特定的新闻门户网站,对该新闻信息获取系统进行总体设计。该系统主要三层,分别为应用层、业务逻辑层和数据层。2)使用网络爬虫对特定的新闻门户网站进行抓取,本文以国内著名新闻门户网站搜狐新闻为例。3)在2)的基础上,对新闻网页的标签进行深入分析,将抓取到的新闻网页首先进行预处理,然后建立对应的DOM树,随后进行网页解析,最终达到对新闻门户网站的正文提取的目的。实验结果表明,该系统方案切实可行,初步实现了对特定新闻门户网站的信息获取。本文在Windows7操作系统下进行,使用java作为编程语言,使用MyEclipse作为开发工具构建一个特定新闻门户网站的信息获取系统。本系统是一个交互式的、动态的、对新闻具有多处理功能的新闻门户网站信息获取系统,方便用户使用。用户可以利用该系统进行搜索新闻、浏览新闻、查看上/下一页新闻、查看新闻原网页、清除新闻等功能。
其他文献
目的分析研究太原市无偿献血者人类免疫缺陷病毒(HIV)抗体(抗-HIV)阳性标本的确认结果和带型。方法采用蛋白印迹(WB)对185例初筛阳性献血者标本进行确认试验,采用SPSS13.0分析试验
在深基坑支护设计采用内支撑结构的地下室结构施工过程中,内支撑拆除应在替换支撑的结构构件达到换撑要求的承载力后进行。在超长结构中设置后浇带是减少混凝土收缩、结构不
本文主要探究了在知识全球化的语境下,文学研究如何应对业已发生巨大变化的文学现象.文章认为,从人类学与文学这两个学科的交叉重叠地带或许能寻找到重审文学新的现象的契机,
复合金属纳米材料有很优异的光学、电学性能,基于复合金属纳米材料的研究对于物理、化学领域的应用具有极其重要的研究意义。相对于单金属,双金属纳米材料的SERS效应、催化性能
提取油脂前的大豆称为全脂大豆。正确加工生产的全脂大豆因其能量、蛋白质、亚油酸、维生素E和卵磷脂等的含量而成为一种很有价值的饲料配料。在国际市场上,许多种不同的产品
笔者从事高中语文教学13年,一直困惑于学生的作文教学。笔者基于教学实践以及对教学同行的访谈,综述学生作文情况如下:(1)假。一为材料的不实,编造、抄袭。二为情感的不实,虚
西南山区的铁路与公路边坡因地势险峻且地质构造复杂,因为对边坡工程的安全性提出了更高的要求。预应力锚索桩基托梁挡土墙作为一种新型支挡结构形式,不仅继承了传统桩基托梁
人是一种社会性动物,因此人际关系(interpersonal relation)作为一种复杂的社会关系,一直以来都是社会学与心理学关注的话题。人际关系的吸引力(interpersonal attraction)作为人际
固井水泥石长期处于井下高温高压工作环境,还通常遭受来自钻采等工况带来的载荷冲击。然而,水泥石是一种天生硬、脆材料,形变能力差,因此容易在复杂应力作用下损伤失效,丧失
可能性分布作为可能性理论中的一项重要内容,能够对事物变化的可能性进行预测,具有适用于少量数据的表征与度量、有效描述集合间多变的映射、计算复杂度低等优点,在系统可靠性分