面向文本数据的半监督学习研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户：man1300

【摘要】

：

随着计算机和存储技术的发展,电子文本数据呈现出海量性和杂乱无章性。为了从大量杂乱无章的文本数据中获取有用的信息,人们需要利用文本分类技术对文档数据进行有效的组织管

【作者】

：

朱岩

【出处】

：

北京交通大学

【发表日期】

：

2012年01期

【关键词】

：

半监督学习文本标注 K近邻向量空问模型特征加权非负矩阵分解成对约束多类型惩罚半监督聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机和存储技术的发展,电子文本数据呈现出海量性和杂乱无章性。为了从大量杂乱无章的文本数据中获取有用的信息,人们需要利用文本分类技术对文档数据进行有效的组织管理。传统的分类技术包括有监督的分类和无监督的聚类。有监督的分类需要大量标注样本的指导,然而标注文本数据费时费力,大规模标注不切实际。无监督的聚类由于缺少标注样本的指导,其性能还有待于进一步提高。因此,只需要少量标注样本和大量无标注样本的半监督学习应运而生,并受到人们的广泛关注。本文针对半监督文本分类领域中存在的数据标注问题、文本表示问题和学习模型设计问题进行研究。我们的创新点主要体现在以下几个方面：(1)由于标注文本数据费时费力,本文研究如何在受限条件下选择待标注样本及对待标注样本进行合理标注。为了使抽取的待标注样本更符合原始数据的分布,本文避免选择已标注样本的K近邻作为新一轮的标注样本。这种方法在一定程度上减少随机标注可能出现的小范围标注稠密的情况,使得分布在不同区域的样本有更多的标注机会。而对待标注文档进行人工标注时,我们考虑文档中单词包含的丰富信息,标注出每篇文档的关键词,进而得到每个类的类别关键词,将未标注文档和类别关键词进行匹配,匹配到的文档作为新的监督信息。(2)通过研究,我们发现文本分类中的噪音单词在各类间分布较均衡。因此,本文提出了一种文本数据加权方法tf.sdf。该方法能够对类间分布不均衡的单词赋予较高的权重,对类间分布均衡的单词赋予较低的权重,进而消除噪音单词对文本分类算法性能的影响。为了在只有少量监督信息的情况下仍可对文本数据进行合理表示,本文将特征加权方法tf.sdf与基分类器相结合,给出了一种文本表示和分类相交互的半监督学习框架。这样,合理的文本表示能提高分类算法的性能,高性能的分类结果又能促进文本的更合理表示。(3)考虑不同类型的成对约束在非负矩阵分解中所起的作用不同,本文提出了一种基于成对约束的多类型惩罚的非负矩阵分解。在这种新算法中,must-link约束主要控制数据压缩表示下的距离,cannot-link约束主要控制样本类别指示向量的相似度。实验表明多类型惩罚的非负矩阵分解可以提高半监督文本聚类的性能。(4)为了扩大非负矩阵分解的应用范围,本文提出了一种基于成对约束的相似度矩阵分解方法,并在理论上证明了其收敛性。由于相似度矩阵分解的应用范围远大于基于原始数据的非负矩阵分解,本文将提出的方法应用于一般UCI数据、文本数据和社会网络数据。实验表明提出的基于成对约束的相似度矩阵分解方法好于其它半监督聚类算法。

其他文献

社会信息化概念的历史考察及其厘定

当代世界史上的社会“信息化”概念及用词的产生和演变，反映了亲历者们对所处历史的体验和感悟。同时，它也为后继者解读和续写相应历史提供了切入点。故而从历史学角度，在区别广

期刊

史学理论信息化历史学社会信息化史信息化

一种基于压缩感知的全变分图像去噪算法

针对传统图像去噪方法的不足,提出了一种基于压缩感知的全变分正则化图像去噪算法,利用基于压缩感知算法中的TVAL3算法对含噪图像进行图像重构和噪声去除.通过对比该算法与OM

期刊

图像去噪压缩感知全变分正则化图像重构

用简化图解电学计算题的方法

本文着重阐述了用简化图来求解电学计算题的方法,其方法具有简易、方便的优点。这也为实际教学中的电学部分提供了参考。

期刊

简化图电学计算题

海岸线遥感解译和提取方法研究

用美国陆地卫星Landsat8影像和0.3 m高分辨率航拍影像结合大量的数据资料和丰富的先验经验,分析不同类型海岸在遥感影像中的表现特征,建立遥感解译标志,基于不同海岸类型提出

期刊

遥感海岸线解译标志GPS

氯化苦土壤消毒对三七种植后细菌群落多样性及烤烟轮作的影响

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

三七细菌群落16S rDNA连作障碍

漏电保护器的分类与应用

漏电保护器是一种防止人身触电事故的安全防护装置。漏电保护器作为一项有效的电气安全技术装置已经被广泛使用,漏电保护器按其保护功能和用途分类,一般可分为漏电保护继电器

期刊

断路器零序电流互感器半导体放大器circuit breaker zero sequence current transformer semiconduct

评课,重在寻根悟道——以一节初中物理电学实验复习课的教学点评为例

<正>评课是评价者基于一定的标准,对课堂教学现象背后的价值追问和理性解读,因此,评课重在寻根悟道,即透过可感知的课堂情景、事实,追问课堂操作背后所体现的教学理念与策略,

期刊

电学实验初中物理复习课灯泡电阻教学点

说“介”

关于“介”字的本义，已有多种意见而莫衷一是。“介”字从人、从八，“人”处“八”之间，是会意字，这种构形思路与训“介”为间的故训相符。而“介”的分离、边际、侧畔、临近、副

期刊

介间本义字形字音同源词

面向文本数据的半监督学习研究

其他学术论文