互联网主题信息定向采集研究

被引量 : 0次 | 上传用户：tgw

【摘要】

：

在信息时代的大背景下,互联网信息以超乎想象的速度迅猛增加,信息爆炸、信息过载使人们陷入了信息时代的新困境。如何在海量的互联网信息资源中快速有效地获取所需信息成为亟

【作者】

：

黄仲清

【发表日期】

：

2010年期

【关键词】

：

主题信息互联网信息定向采集正文抽取舆情信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在信息时代的大背景下,互联网信息以超乎想象的速度迅猛增加,信息爆炸、信息过载使人们陷入了信息时代的新困境。如何在海量的互联网信息资源中快速有效地获取所需信息成为亟待解决的一个重要问题。与此同时,信息用户对信息的需求正逐渐呈现出主题化、领域化、专业化和个性化的趋势。如何满足这些主题化的信息需求也是当前的重要课题。正是基于这样的背景,本文首先研究和比较了当前适用于互联网主题信息定向采集的各类理论、技术和信息采集方案,包括通用引擎和垂直引擎策略、主题信息采集技术、中文自动切分词技术、大规模文本计算技术等支撑性技术；在此基础上提出了通用搜素引擎与垂直搜索引擎相结合的互联网主题定向采集策略,利用基于领域的主题词表生成和优化方法确定主题范围,采用文本相似度计算算法进行系统的文本处理。在确定了采集策略和底层技术后,即对互联网主题定向采集系统进行了框架设计。本文分析和改进了采集系统中的三个关键技术,包括提出了多种防屏蔽技术相结合的网络采集防屏蔽解决方案；改进了一种基于文本密度的网页正文抽取方法；采用了基于分词的向量空间模型和余弦夹角公式实现了基于内容的标题去重。文中以实例介绍了采用模拟浏览器技术自动登录网站的防屏蔽实现方法,改进的网页正文抽取方法适用于新闻类网页,是一种通用性较强、性能优越的正文抽取算法。在网页去重技术方面,本文主要介绍了网页URL比对去重技术和基于内容的去重策略,并采用基于分词的向量空间模型和余弦夹角公式实现了基于内容的标题去重,给出了其核心算法。最后,本文从互联网舆情研究出发,分析了舆情研究对网络信息采集和分析的需求,并针对网络舆情的分支——网络侨情,开发了互联网侨情采集系统。确定了侨情领域主题词表、种子网站,实现了从URL抓取、网页源文件抓取、标题和正文抽取、网页去重等一系列工作流程。为今后继续对网络舆情信息的分析和处理打下了基础。

其他文献

“今福建福州市”的由来及其相关问题

关于"今福建福州市"的来由,对相关文献资料进行较全面的分析和质疑,可以看到"今福建福州市"由汉代的"东部[侯国]"演化而来,而与秦汉时期的"冶(东冶)"无关.

期刊

福州东部[侯国]东冶闽粤国

《周易》文化对中国哲学的贡献

<正>著名哲学史家、易学大师朱伯崑先生曾经说过:"中国人的理论思维水平,在同西方的哲学接触以前,主要是通过对《周易》的研究,得到锻炼和提高的。"《周易》的影响并不限于儒

期刊

《周易》形而上形而下天人之学太极观易学家宇宙本体论

如何加强进出口危险化学品及其包装检验监管

危险化学品是指具有易燃、易爆、毒害、腐蚀、感染、放射性等危险特性的物品,如检验不合格或处理不当,将对人们或动物的身体健康甚至是生命产生威胁。文章探讨了进出口危险化

期刊

危险化学品包装检验进出口监管制度

中西人生之路的立交桥——《西游记》理性思维探索

<正> 自建国以来,关于《西游记》的人物和主题,基本上一直在神魔之争的圈子里打转。近年来,人们开始从美学,哲学等新角度进行重新认识,提出《西游记》是写人生的,孙悟空的性

期刊

理性思维《西游记》五行山靡非斯特立交桥人生之路

H型高血压与急性脑梗死患者颈动脉内膜中层厚度及功能的相关性分析

目的:探讨H型高血压与急性脑梗死患者颈动脉内膜中层厚度(IMT)及功能的相关性。方法:选取我院收治的急性脑梗死患者150例进行研究,依据同型半胱氨酸(Hcy)水平及有无高血压分

期刊

H型高血压急性脑梗死颈动脉内膜中层厚度功能

城乡文化冲突——以贾平凹创作为个案

当中国进入改革开放年代,新的思想、新的潮流再次使中国现代化面临新的机遇,城市生活和城市中的人们再次成为现代生活的一种标记。与此同时,乡村“城市化”进程是社会结构变

学位

贾平凹乡土文学城乡冲突商州系列废都

公路隧道运营安全评价及管理系统开发研究

我国公路隧道的建设和管理起步较晚,尤其是对于高速公路隧道运营安全综合评价及运营安全管理策略的研究较少,实际工作中仍停留在定性判断阶段。为此,本文研究建立了一套公路

学位

公路隧道隧道安全运营管理设防等级安全评价预防对策管理系统运营手册

机场属地化改革后航空货运代理行业的行政监管研究

随着2003年我国机场属地化改革全面启动,政府对于作为民用航空基础设施的机场的管理正从事业型公共管理向商业型市场化管理转变。机场正逐步摆脱政企不分、官商合一的原有垄

学位

机场属地化管理航空货运代理行业行政监管

以市场为导向的新产品开发创新探索

本论文主要针对新产品研发工作实际存在的资源管理脱节问题,用管理创新方法,研究以市场为导向的新产品开发创新。结合公司新产品开发在市场调研阶段和新产品开发过程中存在的

学位

流程创新组织创新方法创新流程再造管理创新

关于慢性肾脏病管理中的几个问题

慢性肾脏病（chronic kidney disease，CKD）并不少见，它不但可逐渐进展到终末期肾脏病（end-stager enal disease，ESRD），消耗大量的社会和家庭资源，而且还是心血管疾病（cardiovascular dis

期刊

CKD病因诊断CVD慢性肾脏病微量白蛋白尿尿肌酐排泄量尿白蛋白ADPKD几个问题

互联网主题信息定向采集研究

其他学术论文