论文部分内容阅读
大数据是现代信息技术的重要发展方向之一,实现大数据的共享将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。但是在大数据时代,很难实现大数据在大范围内共享,一方面,由于网络上的数据资源数量巨大,分布于不同地方,而且形式多样,有结构化数据与非结构化数据,另一方面,由于大量的数据资源缺乏对自身的描述,或者描述的标准不一,使得数据资源难以定位,查找困难。因此,研究大数据特征描述方法,对大数据进行统一表示,并以此建立数据服务平台,实现大数据统一查询,对实现大数据共享具有重要意义。主要研究内容与成果包含以下几点:(1)研究了领域内大数据的特征,从领域内数据使用者的角度,分析领域内数据资源所具有的特征和用法,结合领域现有的对数据信息的描述方案,提出了基于该领域通用的统一数据描述模型,并采用关系型数据库和MongoDB非关系型数据库分别对模型进行了建模与分析,实现统一数据描述模型的形式化表示。(2)基于大数据统一描述的思想构建了数据服务平台,通过将数据注册到数据服务平台中,实现多源数据的统一访问和展现。(3)在研究了当前流行的分类算法的基础上,提出了一种改进的分类方案,即利用KNN算法、遗传算法、线性规划与神经网络实现数据资源的自动分类,这种方案可以利用专家的先验知识在数据筛选阶段对机器学习学到参数进行调整,从而为训练神经网络提供与待分类数据资源相关性较高的数据资源作为训练集,并最终构建了一个分类精度极高的分类器。(4)研究并设计结果整合规则即查询结果重排序和查询分类,其中查询结果重排序采用按照相似度进行排序采取的是权重计算法,查询分类是使用构建的分类器利用由数据资源的标题、描述和创作意图特征值构成的短文本实现了对结果集的自动分类。(5)研究MongoDB数据库集群的原理与实现机制,搭建高可用性集群,用于数据平台中数据特征描述信息、数据源信息与上传的数据对象的存储。通过研究大数据特征描述方法并以此构建数据服务平台,在一定程度上为领域内数据使用者带来了便利,对实现大数据在大范围内共享具有促进作用。