基于Hadoop的内容分析系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qxd986319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机的发展,计算机网络,WEB服务,分布式计算,云计算等相关技术取得了前所未有的发展成果。通过这些技术,使得网络变得无比的庞大,网络中拥有大量的各种信息,信息的形式和内容涵盖了人们生活的每一个方面。网络中蕴含着大量的信息,身处在这个庞大的网络世界中,及时掌握网络的动态信息就显得尤为重要。为了能够更好的掌握这些网络信息,并且对这些网络信息进行一定的分析,人们需要设计一个网络内容的分析系统。基于这一点,本文设计了一个基于网络内容分析的内容分析系统,该系统采用的底层技术是基于分布式计算的,由于需要对庞大的互联网进行分析,所以系统必须具有强大的处理能力和存储能力,为了解决这一问题,本文采用了分布式计算技术,通过多台计算机并行运算处理,将数据分布的存储在不同的计算机存储器上。同时,为了能够对系统数据的海量并行处理,本系统的数据库采用的是当前最为先进的非关系型数据库,这种数据库具有适应分布式计算网络的特点,可以实现对海量数据的高效率存储和访问的问题。在这个系统中本人使用Hadoop进行大规模的自动检索,并且对检索结果排序,通过这个系统,使用者可以快速的统计当前网络上最流行的词汇,出现某词汇频率最高的文章等,及时的了解网络用户的真正行为和关注点。这个系统可以对网络的内容进行分析,筛选,排名,统计使用者想要得到的结果。
其他文献
随着计算技术的飞速发展,嵌入式系统作为一个近年来越来越受到重视的研究热点,在军工、航天、民用等领域均得到了广泛的应用和快速的发展。然而嵌入式开发随着软件规模的不断扩
随着互联网的迅猛发展,宽带用户不断增长,人们的工作和生活有了全新的改变。人们不再仅仅满足于传统的网页浏览、文件下载等互联网的基本表现形式,而对网络资源提出了更多的
家用无绳电话通常接入运营商的固网进行通信。随着宽带家庭网络技术的发展,CAT-iq融合了宽带互联网和成熟、可靠的DECT电话技术,可以为整个家庭提供有Qos的语音服务。家用无绳
路由器是现代互联网络的核心设备。传统的路由器设备,虽然在硬件技术上越来越先进,可是在设备利用率上却存在许多不足。因此,必须寻找新的方法以解决之。虚拟路由器技术就是一个
随着融合网络技术的普及和发展,基于融合网络之上的数据业务和增值业务得到业界的广泛关注,并具有个性化、多样化的发展趋势。如何在融合网络中进行业务的快速开发、灵活部署、
近些年,随着计算机图形学的发展,纹理映射技术作为一项非常重要的技术已经得到了广泛的应用。目前,大家研究的重点主要是集中在对高级纹理映射技术的研究和改进上,高级纹理映
异构无线网络之间的垂直切换是一个重要的研究课题,为了能够进行垂直切换仿真,目前的主流仿真工具中,有的已经提供了垂直切换模块。但这些垂直切换仿真和真实网络相比依然有着很
结构化异常处理(SEH),是Windows操作系统所提供的对错误或异常的处理机制,是Windows操作系统的一个重要组成部分。Win32结构化异常处理(Win32SEH)机制是32位Windows提供给应
AIS全称船舶自动识别系统,是安装在船舶上的一种导航设备,这种设备可以在海事VHF频段不断向外发送本船的经纬度,航向、航速、等动态信息,船名、呼号、目的港等静态信息。同时也能
随着互联网应用的发展,企业信息化进程日益加快,电力、能源等传统企业在走向现代化综合性能源集团的道路中,信息化建设是实现此项战略的关键支撑。安全生产是电力企业的核心业务