互联网主题信息定向采集研究

被引量 : 0次 | 上传用户:tgw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代的大背景下,互联网信息以超乎想象的速度迅猛增加,信息爆炸、信息过载使人们陷入了信息时代的新困境。如何在海量的互联网信息资源中快速有效地获取所需信息成为亟待解决的一个重要问题。与此同时,信息用户对信息的需求正逐渐呈现出主题化、领域化、专业化和个性化的趋势。如何满足这些主题化的信息需求也是当前的重要课题。正是基于这样的背景,本文首先研究和比较了当前适用于互联网主题信息定向采集的各类理论、技术和信息采集方案,包括通用引擎和垂直引擎策略、主题信息采集技术、中文自动切分词技术、大规模文本计算技术等支撑性技术;在此基础上提出了通用搜素引擎与垂直搜索引擎相结合的互联网主题定向采集策略,利用基于领域的主题词表生成和优化方法确定主题范围,采用文本相似度计算算法进行系统的文本处理。在确定了采集策略和底层技术后,即对互联网主题定向采集系统进行了框架设计。本文分析和改进了采集系统中的三个关键技术,包括提出了多种防屏蔽技术相结合的网络采集防屏蔽解决方案;改进了一种基于文本密度的网页正文抽取方法;采用了基于分词的向量空间模型和余弦夹角公式实现了基于内容的标题去重。文中以实例介绍了采用模拟浏览器技术自动登录网站的防屏蔽实现方法,改进的网页正文抽取方法适用于新闻类网页,是一种通用性较强、性能优越的正文抽取算法。在网页去重技术方面,本文主要介绍了网页URL比对去重技术和基于内容的去重策略,并采用基于分词的向量空间模型和余弦夹角公式实现了基于内容的标题去重,给出了其核心算法。最后,本文从互联网舆情研究出发,分析了舆情研究对网络信息采集和分析的需求,并针对网络舆情的分支——网络侨情,开发了互联网侨情采集系统。确定了侨情领域主题词表、种子网站,实现了从URL抓取、网页源文件抓取、标题和正文抽取、网页去重等一系列工作流程。为今后继续对网络舆情信息的分析和处理打下了基础。
其他文献
关于"今福建福州市"的来由,对相关文献资料进行较全面的分析和质疑,可以看到"今福建福州市"由汉代的"东部[侯国]"演化而来,而与秦汉时期的"冶(东冶)"无关.
<正>著名哲学史家、易学大师朱伯崑先生曾经说过:"中国人的理论思维水平,在同西方的哲学接触以前,主要是通过对《周易》的研究,得到锻炼和提高的。"《周易》的影响并不限于儒
危险化学品是指具有易燃、易爆、毒害、腐蚀、感染、放射性等危险特性的物品,如检验不合格或处理不当,将对人们或动物的身体健康甚至是生命产生威胁。文章探讨了进出口危险化
<正> 自建国以来,关于《西游记》的人物和主题,基本上一直在神魔之争的圈子里打转。近年来,人们开始从美学,哲学等新角度进行重新认识,提出《西游记》是写人生的,孙悟空的性
目的:探讨H型高血压与急性脑梗死患者颈动脉内膜中层厚度(IMT)及功能的相关性。方法:选取我院收治的急性脑梗死患者150例进行研究,依据同型半胱氨酸(Hcy)水平及有无高血压分
当中国进入改革开放年代,新的思想、新的潮流再次使中国现代化面临新的机遇,城市生活和城市中的人们再次成为现代生活的一种标记。与此同时,乡村“城市化”进程是社会结构变
我国公路隧道的建设和管理起步较晚,尤其是对于高速公路隧道运营安全综合评价及运营安全管理策略的研究较少,实际工作中仍停留在定性判断阶段。为此,本文研究建立了一套公路
随着2003年我国机场属地化改革全面启动,政府对于作为民用航空基础设施的机场的管理正从事业型公共管理向商业型市场化管理转变。机场正逐步摆脱政企不分、官商合一的原有垄
本论文主要针对新产品研发工作实际存在的资源管理脱节问题,用管理创新方法,研究以市场为导向的新产品开发创新。结合公司新产品开发在市场调研阶段和新产品开发过程中存在的
慢性肾脏病(chronic kidney disease,CKD)并不少见,它不但可逐渐进展到终末期肾脏病(end-stager enal disease,ESRD),消耗大量的社会和家庭资源,而且还是心血管疾病(cardiovascular dis