面向文本数据的半监督学习研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:man1300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和存储技术的发展,电子文本数据呈现出海量性和杂乱无章性。为了从大量杂乱无章的文本数据中获取有用的信息,人们需要利用文本分类技术对文档数据进行有效的组织管理。传统的分类技术包括有监督的分类和无监督的聚类。有监督的分类需要大量标注样本的指导,然而标注文本数据费时费力,大规模标注不切实际。无监督的聚类由于缺少标注样本的指导,其性能还有待于进一步提高。因此,只需要少量标注样本和大量无标注样本的半监督学习应运而生,并受到人们的广泛关注。本文针对半监督文本分类领域中存在的数据标注问题、文本表示问题和学习模型设计问题进行研究。我们的创新点主要体现在以下几个方面:(1)由于标注文本数据费时费力,本文研究如何在受限条件下选择待标注样本及对待标注样本进行合理标注。为了使抽取的待标注样本更符合原始数据的分布,本文避免选择已标注样本的K近邻作为新一轮的标注样本。这种方法在一定程度上减少随机标注可能出现的小范围标注稠密的情况,使得分布在不同区域的样本有更多的标注机会。而对待标注文档进行人工标注时,我们考虑文档中单词包含的丰富信息,标注出每篇文档的关键词,进而得到每个类的类别关键词,将未标注文档和类别关键词进行匹配,匹配到的文档作为新的监督信息。(2)通过研究,我们发现文本分类中的噪音单词在各类间分布较均衡。因此,本文提出了一种文本数据加权方法tf.sdf。该方法能够对类间分布不均衡的单词赋予较高的权重,对类间分布均衡的单词赋予较低的权重,进而消除噪音单词对文本分类算法性能的影响。为了在只有少量监督信息的情况下仍可对文本数据进行合理表示,本文将特征加权方法tf.sdf与基分类器相结合,给出了一种文本表示和分类相交互的半监督学习框架。这样,合理的文本表示能提高分类算法的性能,高性能的分类结果又能促进文本的更合理表示。(3)考虑不同类型的成对约束在非负矩阵分解中所起的作用不同,本文提出了一种基于成对约束的多类型惩罚的非负矩阵分解。在这种新算法中,must-link约束主要控制数据压缩表示下的距离,cannot-link约束主要控制样本类别指示向量的相似度。实验表明多类型惩罚的非负矩阵分解可以提高半监督文本聚类的性能。(4)为了扩大非负矩阵分解的应用范围,本文提出了一种基于成对约束的相似度矩阵分解方法,并在理论上证明了其收敛性。由于相似度矩阵分解的应用范围远大于基于原始数据的非负矩阵分解,本文将提出的方法应用于一般UCI数据、文本数据和社会网络数据。实验表明提出的基于成对约束的相似度矩阵分解方法好于其它半监督聚类算法。
其他文献
随着一带一路战略的不断推进、中国国际地位的不断提升,全球范围内正掀起一股“汉语热”浪潮,汉语教育国际化因此实现了较为长足进步,基于此,本文简单分析了汉语教育国际化发展的
当代世界史上的社会“信息化”概念及用词的产生和演变,反映了亲历者们对所处历史的体验和感悟。同时,它也为后继者解读和续写相应历史提供了切入点。故而从历史学角度,在区别广
针对传统图像去噪方法的不足,提出了一种基于压缩感知的全变分正则化图像去噪算法,利用基于压缩感知算法中的TVAL3算法对含噪图像进行图像重构和噪声去除.通过对比该算法与OM
本文着重阐述了用简化图来求解电学计算题的方法,其方法具有简易、方便的优点。这也为实际教学中的电学部分提供了参考。
用美国陆地卫星Landsat8影像和0.3 m高分辨率航拍影像结合大量的数据资料和丰富的先验经验,分析不同类型海岸在遥感影像中的表现特征,建立遥感解译标志,基于不同海岸类型提出
大学生党建工作进公寓在高校思想政治教育和公寓管理中均具有重要意义.本文分析了大学生党建工作进公寓存在的突出问题,并从坚实基础保障、完善制度建设和丰富公寓党建活动三
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
漏电保护器是一种防止人身触电事故的安全防护装置。漏电保护器作为一项有效的电气安全技术装置已经被广泛使用,漏电保护器按其保护功能和用途分类,一般可分为漏电保护继电器
<正>评课是评价者基于一定的标准,对课堂教学现象背后的价值追问和理性解读,因此,评课重在寻根悟道,即透过可感知的课堂情景、事实,追问课堂操作背后所体现的教学理念与策略,
关于“介”字的本义,已有多种意见而莫衷一是。“介”字从人、从八,“人”处“八”之间,是会意字,这种构形思路与训“介”为间的故训相符。而“介”的分离、边际、侧畔、临近、副