基于positive和unlabeled样本的半监督分类研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:xuanchen21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如Rocchio algorithm,,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数,对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础,研究在仅有Positive样本或者少量训练样本的情况下,如何通过对Unlabeled样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对Unlabeled样本进行较高准确率的分类。本文主要做了以下几方面工作:1.研究贝叶斯模型标注positive和unlabeled样本,结合EM迭代算法,估计未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研究,以及EM极大似然估计过程中的性能计算。2.采用信息熵的离散事件概率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况,如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对数据的标准化处理,采用极大值标准化处理方法。3.采用主动学习的方法进行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善分类器的学习。4.结合最大熵和机器学习的技术,在BBS情感分类中的一个应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构建SVM分类器进行BBS文档的情感分类。
其他文献
SAR在环境监测、资源勘探及军事领域得到广泛应用,SAR图像因其良好的穿透性比光学图像包含更丰富的内容,对SAR图像解译可以获得覆盖区域的相关信息和知识。目标识别是SAR图像
全景图像的拼接是数字图像处理和计算机视觉领域的一个热门研究点,是指将多幅有重叠区的图像拼接成广视角乃至360°全视角图像的技术。全景图像拼接是一种基于图像渲染技术、
在MANET网络环境下动态移动的各节点间实现高效的内容分发,不能全盘照搬流行的P2P网络中BT协议的做法。本文对在MANET环境下的内容分发系统的特点、工作机理、协议和实现方法
在中文信息处理领域,未登录词(OOV)的识别一直是个难点问题。而未登录词的翻译在自然语言处理的应用中是很重要的,比如在跨语言信息检索(CLIR)、问答系统(QA)中,未登录词翻译
云计算是当前国内外研究的热点问题,它带来了一种新的理念,其关键是依托于由第三方运营商提供的集中计算和存储资源进行实时交互,而不是依赖本地计算机资源。云计算实际是在电子
学位
能源在企业成本中占有相当大的比重。而有些企业能源利用效率低,单位产品能耗高,这就相应地增加了企业的成本,削弱了企业的市场竞争力,因此降低能源消耗是企业降低成本的重要
遥感图像通过远距离成像,提供关于客观场景的信息,是人们认识客观世界的重要手段,在自动目标识别、气象等众多领域有重要意义。由于单源遥感图像提供的信息往往不能达到需求的要求,综合图像信息的图像融合技术成为了研究的热点。目前,该领域的研究集中在融合算法的设计、融合效果的评估等方面,并取得了较多成果,但涉及到面向应用的融合源选择时,学术界缺乏系统的研究及令人信服的理论。本文针对此问题展开讨论。图像质量评价
人脸识别是生物特征识别领域中的一种基于生理特征的识别技术,通过相关算法提取的人脸特征进行身份验证。由于世界上不存在任何两张完全相同的人脸,所以人脸具有唯一性和不容易
集数据采集、处理和通信于一体的无线传感器网络以其低廉的价格、便利的部署方式得到越来越广泛的使用,对传感器网络各个方面的研究也日益成为学术界非常活跃的课题。报头压