【摘 要】
:
随着当前社会经济的繁荣和科学技术的进步,各行各业都积累了大量的数据,这些数据的来源非常的丰富,包括工业大数据,遥测数据,社交网络数据,时间数据、位置数据和文本数据等。
论文部分内容阅读
随着当前社会经济的繁荣和科学技术的进步,各行各业都积累了大量的数据,这些数据的来源非常的丰富,包括工业大数据,遥测数据,社交网络数据,时间数据、位置数据和文本数据等。各行各业均被数据深刻的影响着。伴随着大量数据而来的一个重大问题就是数据质量问题。由于各种条件的限制,比如传输条件,采集条件,历史条件,输入错误和系统故障等不可避免的因素,导致数据中存在缺失或者矛盾的数据。另外由于数据的来源也日益扩大,也导致了这些数据的利用变得即为困难。为了提高数据的可用性,通过模式转换来进行数据整合并采取措施来提高数据的完整性是非常常用的手段。现有技术在模式匹配上并不够通用,仅考虑关系模式的部分特点,缺乏有效的综合关系模式各个特点的策略。同时现有的缺失值处理技术,需要对数据有限制要求,不能够很好的处理各种类型的数据,全面的覆盖关系模式的每个属性。如何能够有效的对缺失数据进行填充,将这两个过程能够紧密的结合,将是本文的核心研究内容。本文根据关系模式的特点,提出了一种通用的基于加权打分机制的关系模式匹配算法。算法适用于各个领域的关系模式,并且不需要对关系模式做出条件限制,合法定义的关系模式均可以采用本文提出的算法进行匹配。算法考虑了关系模式的各个特点,并通过最优权值学习来综合考虑这些因素,具有较高的准确度。本文通过实验,验证了该算法的有效性。在模式转换的过程中提高数据质量,本文提出了一种利用神经网络作为预测模型,在遇到空值的时候通过网络的输出进行补全的方法。预测模型利用本文提出的特征选择算法选取出合适的属性,并对属性进行向量化和特征扩展,通过以神经网络为基础的自编码器对特征进行压缩和去噪,然后以该模式的数据为训练集,为该模式的每个属性构建了预测模型,在面临缺失值得时候可以通过预测模型进行补全,最后结合前述匹配算法完成数据的转换。基于预测模型来处理缺失值的方法充分考虑了记录各个属性之间的语义关联性,并且利用本文提出的特征向量化方法它可以处理各种类型的属性,易于覆盖所有属性,是一种新颖且通用的算法。本文也通过实验,验证了预测模型的有效性。最后,本文设计了一个原型系统,系统集成了本文提出的关系模式匹配算法和具有质量保障的模式转换算法,提供模式转换的服务,来展示算法的效果。
其他文献
字符串具有多元化的意义,是计算机领域中重要的研究对象。字符串查询在数据分析、生物序列分析等很多领域有着广泛的应用,然而很多因素导致字符串精确查询面临很大困难甚至不
随着经济发展与社会进步,我国老龄化社会程度不断加深,健康养老问题突出。老年慢性病导致的疾病负担日益加重,老年患者生命质量严重下降,健康服务需求显著增加。“医养结合”为老年慢性病人群的健康养老提供了新思路,但卫生系统仍缺少连续性管理慢性病的计划,亟需在老年慢性病健康服务需求的基础上探索适宜的老年慢性病卫生服务模式。【目的】了解居家社区和机构不同养老方式和社会背景下的老年人慢性病患病情况、卫生服务需求
研究目的:观察人体在三种不同鞍座高度下进行蹬踏自行车运动时,下肢的神经肌肉活动和肌肉协调模式及对下肢参与收缩肌肉的局部温度的影响,为自行车爱好者调整适合的鞍座高度提供依据。研究方法:本研究采用单因素方差分析和重复测量方差分析设计。13名沈阳体育学院男大学生自愿参与本研究。每名研究对象分别以高鞍座高度(最低蹬踏位置时的膝关节角度为25°)、中等鞍座高度(最低蹬踏位置时的膝关节角度为35°)和低鞍座高
第一部分ABO血型与抗结核药致肝损伤易感性的关系目的:抗结核药致肝损伤(Antituberculosis drug-induced liver injury,ATLI)是一种严重的药物不良反应,其发病机制尚不清楚。利福平(Rifampin,RIF)可产生药物依赖性抗体而引起溶血反应,溶血导致游离血红素水平升高,从而影响肝细胞功能。血型抗原决定簇可以作为药物-抗体复合物的特异性受体位点,在RIF存在
近年来,深度学习发展迅猛,在多方面取得了显著成就。实践表明,深度卷积神经网络在很多人工智能的应用中非常有用,尤其在推荐系统、图像识别与分割、语音识别领域,有很多应用
近年来,星载雷达传感器技术取得了长足的进步,合成孔径雷达(Synthetic Aperture Radar,SAR)在海洋监控、海洋目标检测等方面体现出了巨大的优势。简缩极化SAR系统(Compact Po
叙述理论对叙事性作品乃至整个人文社会科学均产生深远影响。而电视人物专题片是使用纪实性的手法对平凡或者伟大人物的特殊事迹展开集中和深入的挖掘,依靠艺术化的手段表现人物的生活经历,揭示出创作者理念的电视艺术形态。从叙述理论视域对电视人物专题片的如何故事化进行研究,以理论指导创作实践,创作实践丰富理论,在遵从电视专题片强调反映真实生活的基础上,叙事如何创新?是本次研究所做的努力。因此,以毕业设计《守关医
刘家峡大桥属于临夏折桥至兰州达川二级公路的关键工程,为跨越刘家峡水库黄河支流而设,桥梁建成后将大大改善水库两岸少数民族居民通行条件,对进一步提高区域路网的网络化程度和整体效能,促进当地经贸流通以及旅游资源的整体开发,提高库区移民生活水平有重大意义。建成后也将成西北地区最大跨度的悬索桥。悬索桥猫道虽在以往施工中有所研究,但此工程进行小断面猫道研究可借鉴的经验仍旧较少。本文通过刘家峡大桥猫道的设计及施
在信息时代,生物特征识别技术是身份识别的重要手段之一。目前,大部分识别技术以可见光图像作为目标对象,在一些场景中很难提取到隐藏的生物特征信息。面对上述瓶颈,本课题将
随着工业化和城市化的不断推进,城市垃圾作为城市发展的附属物也随之而来,高速发展中的中国城市,正在遭遇“垃圾围城”之痛,如何有效解决相关难题成为城市管理的重要议题,垃圾处理也已成为我国各级政府一件重要而紧迫的任务。在实践中,城市生活垃圾的处理工作作为一项基础性公共服务,一直由政府主导供给,过程中暴露出诸多问题,缺乏政府干预的内在逻辑。探索政府作用管理新模式,改变传统僵化的政府作用方式,构建适合我国当