极大或极小数据集下贝叶斯网学习的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dongge5266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
极大数据集是指数据量巨大,以致于计算机内存不能全部容纳的数据集;极小数据集是指由于实验条件和实验代价等限制,导致获得的珍贵数据资源比较少的数据集。本文对极大或极小数据集下的贝叶斯网络学习进行了研究,并提出了相关的解决方案。首先,提出了一种在数据缺失训练集下增量学习贝叶斯网络的有效的算法IBN-M,该算法用结构化的EM算法来补全数据集中缺失的数据,并且能在并行和启发式搜索策略提供的较大的搜索空间里搜索,有效地避免了采用结构化EM算法而导致的局部极值,同时采用了对数据分批次学习的增量学习方法,解决了大规模数据学习存在的内存空间不足的问题,并将IBN-M应用到网络流量预测中去。实验结果表明IBN-M算法在数据缺失下贝叶斯网络的增量学习中确实能够学出相对精确的网络模型,该算法也是对贝叶斯网络增量学习方面的一个必要的补充。其次,建立了一种小规模数据集下学习贝叶斯网络的有效算法FCLBN。FCLBN利用bootstrap方法在给定的小样本数据集上进行重抽样,然后用在抽样后数据集上学到的贝叶斯网络来估计原数据集上的贝叶斯网络的高置信度的特征,并用这些特征来指导在原数据集上的贝叶斯网络搜索。用标准的数据集验证了FCLBN的有效性,并将FCLBN应用到了酵母菌细胞蛋白质分子定位预测问题中去。最后,从极小数据集下的贝叶斯网络学习中受到启发,对大规模数据集下贝叶斯网络的学习过程进行改进,提出了MM-IBN算法。相对于大规模数据集而言,每一批次数据的学习实际上就是一个小规模数据集学习的问题,MM-IBN算法就是将特征置信指导的方法融入到增量学习过程中去。实验验证了这一改进确实使得大规模数据集下贝叶斯网络的学习结果更加精确。
其他文献
近年来,数字视频技术与网络技术的快速发展推动了围绕视频点播的各种流媒体业务的广泛应用。视频点播技术是随着计算机技术和网络通讯技术的发展,综合了计算机技术、通讯技术
随着Internet的发展和普及,电子邮件也得到了广泛的应用。电子邮件在给人们带来方便的同时也产生了一个新的问题,即大量垃圾邮件的出现。垃圾邮件作为电子邮件的副产物日益影
近年来随着多媒体技术、计算机技术和网络技术的不断发展,使视频的实时传输得到了广泛的应用。视频实时传输中庞大的数据量、对实时性的高要求和目前的网络带宽不足之间的矛
基于描述逻辑的本体是构建下一代互联网——语义Web的重要基础。本体语言使用含有语义的元数据对分布的网络资源进行描述,并利用描述逻辑提供的推理工具,作为知识共享的媒介,使
对于自然界中的任何物体,纹理都可以描述其表面错综复杂的细节。纹理合成技术是根据已有的纹理信息,合成与其相似的大面积纹理。该技术近年来受到了越来越多的关注,目前已成为图
虚拟现实技术作为一项在二十世纪末兴起的一种崭新的信息技术,在许多领域有着广泛的应用和良好的发展前景。目前,很多高校都对虚拟现实技术做了研究,但是在模型的复杂度、真实感
软件从它诞生之日起,就受到各种各样潜在软件故障的折磨。随着软件实现功能越来越多也越来越强大,其携带的潜在的故障也越多,随之也带来更多的安全性问题,如果这些潜在的故障一旦
随着计算机网络技术的飞速发展和企业对网络技术应用的不断增多,局域网内部安全问题已成为人们越来越关注的一个问题,而局域网内部安全问题的根本,是主机的文件及进程的安全问题
软件可信性问题是可信计算领域的研究分支之一,也是近年来研究的重要焦点。软件的“可信”是指软件系统的动态行为及其结果总是符合人们的预期,在受到干扰时仍能提供连续的服务
脱机手写体汉字识别目前仍然是模式识别中最困难的问题之一,因而也是手写中文信息化的主要障碍之一,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的