论文部分内容阅读
伴随着计算机的发展,计算机网络,WEB服务,分布式计算,云计算等相关技术取得了前所未有的发展成果。通过这些技术,使得网络变得无比的庞大,网络中拥有大量的各种信息,信息的形式和内容涵盖了人们生活的每一个方面。网络中蕴含着大量的信息,身处在这个庞大的网络世界中,及时掌握网络的动态信息就显得尤为重要。为了能够更好的掌握这些网络信息,并且对这些网络信息进行一定的分析,人们需要设计一个网络内容的分析系统。基于这一点,本文设计了一个基于网络内容分析的内容分析系统,该系统采用的底层技术是基于分布式计算的,由于需要对庞大的互联网进行分析,所以系统必须具有强大的处理能力和存储能力,为了解决这一问题,本文采用了分布式计算技术,通过多台计算机并行运算处理,将数据分布的存储在不同的计算机存储器上。同时,为了能够对系统数据的海量并行处理,本系统的数据库采用的是当前最为先进的非关系型数据库,这种数据库具有适应分布式计算网络的特点,可以实现对海量数据的高效率存储和访问的问题。在这个系统中本人使用Hadoop进行大规模的自动检索,并且对检索结果排序,通过这个系统,使用者可以快速的统计当前网络上最流行的词汇,出现某词汇频率最高的文章等,及时的了解网络用户的真正行为和关注点。这个系统可以对网络的内容进行分析,筛选,排名,统计使用者想要得到的结果。