论文部分内容阅读
图文档是制造类企业产品数据管理的主要信息资源之一。现有的PDM系统几乎全部是以产品结构树为基础来实现图文档管理,通过关系数据库(RDB)和文件系统集成的方式实现图文档存储。企业“大数据”时代的到来,使得传统基于RDB的PDM系统在高扩展性、高并发访问和高可用性等方面存在的问题日显突出——服务器和用户终端机越来越“高档”、存储设备数量和容量越来越大、用户访问速度越来越慢、数据备份时间越来越长。同时,RDB并不适台表达层次模型问题,标准的SQL语言也很难直接实现复杂的层次查询要求,并且在海量数据规模下,传统的层次遍历算法时间效率会非常低。因此寻求较高效率的图文档存储方案和层次查询方案具有重要的意义。首先,针对图文档大文件的高吞吐量存取和小文件的快速响应需求,提出将NoSQL数据库加入以HDFS(Hadoop Distributed File System)为基础的企业私有云存储平台,共同提供文件存储服务;同时,提出一种存储系统综合评判模型,结合多维属性决策理论以确定文件分布存储时的阈值。其次,针对大规模产品结点信息层次遍历时间效率低的问题,提出一种基于MapReduce的层次查询处理方法。借鉴MapReduce并行计算思想,分析了产品结点信息并行扩展处理方法并详细设计了算法的过程。最后,对本文提出的模型和算法分别进行实验检验。图文档存储实验结果表明,MongoDB具有小文件存取优势,在海量文件数据下,阈值应设置在17MB以下。基于MapReduce的层次查询实验验证了算法的有效性,并且实验结果表明在大规模数据结点层次查询下较传统方法效率更高。