基于Hadoop框架的专题信息存储及多维分析系统构建研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:ythsl761208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对单纯依靠传统信息处理方式无法应对大数据时代专题信息资源数据量大、变化迅速的情况,提出基于Hadoop平台的专题信息资源存储与多维分析系统构建设计本研究课题。本课题深入研究该系统的服务模式、服务对象、技术体系等方面,从系统构建与应用的角度分析构建系统涉及的关键技术,在此基础上设计并实现了基于Hadoop框架的专题信息存储与多维分析系统。该系统可以存储不同来源的专题信息,帮助用户高效的分析专题信息资源,并展示分析结果。该系统可以有效的存储不同来源的专题信息资源,同时可以实现领域主题热点提取、热点演化分析等功能,从而进一步提高专题信息资源存储、处理和知识组织方式,进而帮助信息分析工作者提高信息分析和利用的效率。本文的主要工作主要体现在以下四个方面:(1)针对专题信息资源分析工作中面临的多种异构数据的存储、加工处理问题,本课题设计了不同来源的专题信息采取不同的获取策略。通过将获取到的数据按照一定的规则设计数据存储结构,并基于HBase数据库特有的列存储结构,对专题信息存储的实际存储过程进行实证研究。(2)针对专题信息资源中文本流数据存在的分析问题,设计了基于MapReduce方式的文本处理方案。主要通过MapReduce方式的分词处理,进行文本特征化提取、TF-IDF特征词加权、文本向量空间生成,从而为后续的聚类做好准备。在进行文本分词时,通过网络搜集领域专业术语扩充分词词典,提高分词质量。(3)针对专题信息资源的统计分布分析与主题分析需求,从专题信息资源宏观分析角度出发,利用LDA主题模型,对数据集进行了主题分析,并将分析结果以可视化方式进行展示。该分析可以帮助使用者发现领域研究重点及其转移等知识。(4)对上述功能需求进行融合,利用Java语言开发了基于Hadoop框架的专题信息存储与多维分析系统。实证结果表明,从实际生产需求出发,基于Hadoop框架设计并实现了专题信息存储与多维分析系统。该系统可以实现专题信息资源存储、资源加工和分析等功能,通过功能测试,验证了本系统的可用性,具有一定的实践意义。
其他文献
综合保障基地作为未来战争保障活动的重要依托,其信息化建设具有很强的现实意义。物联网作为新兴技术,在综合保障基地中的应用前景广阔。基地想要实现真正意义上"快"、"准"、
以山茶树的乙醇浸提液为原料,分别对明矾法和氧化钙沉淀法制备茶皂素粗品的产率和纯度进行了比较,考察了茶皂素的纯化工艺及茶皂素的表面活性。结果表明,采用明矾法可以制备纯度
【背景】人核糖体蛋白S13(RPS13)基因位于染色体11P15.1-14,全长约3.3Kb,有6个外显子和5个内含子。RPS13是细胞内蛋白质翻译小体-核糖体小亚基上重要的结构蛋白之一,属于核糖
目的:调查分析眼视光本科《科研设计》课程的教学现状,为提高课程教学质量提出建议。方法:选取温州医科大学眼视光本科专业已开设《科研设计》课程的2012年级和2013年级学生为调
以15个产地人参种质资源为试材,采用RAPD和SSR分子标记技术对其遗传多样性进行分析。结果表明:2种分子标记均能揭示不同地区人参种质间的遗传多样性。共筛选出11条RAPD随机引
残雪是当代中国文坛中一位特立独行、极具个性的女作家,也是中国当代文学史上一个无法回避、引人深思的文学现象。她的另类创作风格使得其作品一经问世,不仅在国内引起关注,
通过对触摸屏及控制器ADS7843工作原理的分析以及与ARM7微处理器LPC2387硬件连接的研究,设计出两种不同的触摸屏控制方式,并给出必要的软件编程及相关的触摸屏逻辑坐标与LCD
采用4F型氟碳树脂和HDI三聚体为成膜材料,辅以合适的颜填料及助剂制备的4F型自清洁氟碳涂料具有常规氟碳涂料优异的耐候性、防腐性能的同时,还具有亲水性的类陶瓷表面,具有了
目的:通过对成人肝癌、肺癌、胃癌、肠癌、卵巢癌、乳腺癌5种耐药基因蛋白的检测,了解常见恶性肿瘤组织耐药基因蛋白表达的一般规律和特点,探讨其与临床病理参数的相关性。方
<正>空军基地是为空军部队执行各种任务提供保障的地域及机构、设施的统称。美国空军基地根据其执行任务的差别,可分为航空基地、导弹基地、训练基地、科研基地、后勤基地和