论文部分内容阅读
针对单纯依靠传统信息处理方式无法应对大数据时代专题信息资源数据量大、变化迅速的情况,提出基于Hadoop平台的专题信息资源存储与多维分析系统构建设计本研究课题。本课题深入研究该系统的服务模式、服务对象、技术体系等方面,从系统构建与应用的角度分析构建系统涉及的关键技术,在此基础上设计并实现了基于Hadoop框架的专题信息存储与多维分析系统。该系统可以存储不同来源的专题信息,帮助用户高效的分析专题信息资源,并展示分析结果。该系统可以有效的存储不同来源的专题信息资源,同时可以实现领域主题热点提取、热点演化分析等功能,从而进一步提高专题信息资源存储、处理和知识组织方式,进而帮助信息分析工作者提高信息分析和利用的效率。本文的主要工作主要体现在以下四个方面:(1)针对专题信息资源分析工作中面临的多种异构数据的存储、加工处理问题,本课题设计了不同来源的专题信息采取不同的获取策略。通过将获取到的数据按照一定的规则设计数据存储结构,并基于HBase数据库特有的列存储结构,对专题信息存储的实际存储过程进行实证研究。(2)针对专题信息资源中文本流数据存在的分析问题,设计了基于MapReduce方式的文本处理方案。主要通过MapReduce方式的分词处理,进行文本特征化提取、TF-IDF特征词加权、文本向量空间生成,从而为后续的聚类做好准备。在进行文本分词时,通过网络搜集领域专业术语扩充分词词典,提高分词质量。(3)针对专题信息资源的统计分布分析与主题分析需求,从专题信息资源宏观分析角度出发,利用LDA主题模型,对数据集进行了主题分析,并将分析结果以可视化方式进行展示。该分析可以帮助使用者发现领域研究重点及其转移等知识。(4)对上述功能需求进行融合,利用Java语言开发了基于Hadoop框架的专题信息存储与多维分析系统。实证结果表明,从实际生产需求出发,基于Hadoop框架设计并实现了专题信息存储与多维分析系统。该系统可以实现专题信息资源存储、资源加工和分析等功能,通过功能测试,验证了本系统的可用性,具有一定的实践意义。