面向领域大数据特征描述方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lhy_287229489
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据是现代信息技术的重要发展方向之一,实现大数据的共享将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。但是在大数据时代,很难实现大数据在大范围内共享,一方面,由于网络上的数据资源数量巨大,分布于不同地方,而且形式多样,有结构化数据与非结构化数据,另一方面,由于大量的数据资源缺乏对自身的描述,或者描述的标准不一,使得数据资源难以定位,查找困难。因此,研究大数据特征描述方法,对大数据进行统一表示,并以此建立数据服务平台,实现大数据统一查询,对实现大数据共享具有重要意义。主要研究内容与成果包含以下几点:(1)研究了领域内大数据的特征,从领域内数据使用者的角度,分析领域内数据资源所具有的特征和用法,结合领域现有的对数据信息的描述方案,提出了基于该领域通用的统一数据描述模型,并采用关系型数据库和MongoDB非关系型数据库分别对模型进行了建模与分析,实现统一数据描述模型的形式化表示。(2)基于大数据统一描述的思想构建了数据服务平台,通过将数据注册到数据服务平台中,实现多源数据的统一访问和展现。(3)在研究了当前流行的分类算法的基础上,提出了一种改进的分类方案,即利用KNN算法、遗传算法、线性规划与神经网络实现数据资源的自动分类,这种方案可以利用专家的先验知识在数据筛选阶段对机器学习学到参数进行调整,从而为训练神经网络提供与待分类数据资源相关性较高的数据资源作为训练集,并最终构建了一个分类精度极高的分类器。(4)研究并设计结果整合规则即查询结果重排序和查询分类,其中查询结果重排序采用按照相似度进行排序采取的是权重计算法,查询分类是使用构建的分类器利用由数据资源的标题、描述和创作意图特征值构成的短文本实现了对结果集的自动分类。(5)研究MongoDB数据库集群的原理与实现机制,搭建高可用性集群,用于数据平台中数据特征描述信息、数据源信息与上传的数据对象的存储。通过研究大数据特征描述方法并以此构建数据服务平台,在一定程度上为领域内数据使用者带来了便利,对实现大数据在大范围内共享具有促进作用。
其他文献
对梁板壳的线性理论、近似几何非线性理论与有限变形理论作了比较,介绍了有限转动理论,指出了应用有限变形理论求解梁板壳的大变形问题的高效率、高精度的巨大优越性.
由国家技术监督局、国家质量奖评定委员会组织的国家优质产品评比结果于1991年10月在北京揭晓,062基地7102厂的常乐牌卫星电视地面接收站荣获国优产品称号。这是企业的最高
1988年12月,美国《航空周刊》编辑杰弗里M·勒诺罗维茨和一些西方人士应苏联航天管理总局的邀请,参观了拜克努尔航天中心的航天飞机组装厂。下面是杰弗里有关组装厂所见所闻
建立了一类被捕食者具有幼虫阶段的率依赖捕食-被捕食模型,通过对其平衡点稳定性的研究,得到其平衡点稳定的条件,为以虫治虫策略提供理论参考.并通过与无捕食模型稳态解进行
在解析ASP.NET三层构架具体概念的基础上,通过实例介绍ASP.NET三层构架的具体应用及各层的主要功能,为初学者更加了解ASP.NET三层构架提供理论参考。
高压减重气瓶是为产品油箱减重增压,并为舵机提供动力的装置。最近,随着产品的升级换代,中国航天科技集团公司七院7102厂通过采用新型复合材料,在保持气瓶外形尺寸和容积不变
本文对国外主要航天机构及国内部分院所的产品保证模式进行了阐述和介绍,探讨了其中的有益经验,给出了国内航天系统开展产品保证工作的建议。
岔伞是凤台花鼓灯的重要表演用具,其舞台道具原型应是宋代宫廷乐舞中的“竹竿子”,器物形制原型应源自北宋中元节出现的竹制“盂兰盆”。岔伞形制的演进折射出花鼓灯艺术与地域
随着我们国家的社会经济发展,政府财政支出的结构相较于以往出现了很多变化,以往比较侧重于进行基础设施建设和经济发展,而现在更侧重于对医疗、教育和社会保障方面进行支出
目的:研究药物的溶解度、油水分配系数与脂质体包封率的关系。方法:测定人参总皂苷和枸杞多糖的溶解度及油水分配系数;采用逆向蒸发法制备人参总皂苷脂质体和枸杞多糖脂质体,