基于半监督的网页分类

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yjcwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络文本信息飞速增长,对海量网络文本进行自动分类并从中找出我们所需要的信息是一项非常迫切的需求,然而,传统的全监督学习分类器要想有好的分类效果,首先需要人工标注数据,训练好模型之后,才可以分类。在海量数据面前,标注成本极高,用户标注不一致,而数据采集和存储技术却一直在飞速发展,这给本文的设想提供了技术基础。真实网络文本中通常存在大量未标记的数据,仅有少量现成的已标记数据,如果我们假设大量未标记数据与少量已标记数据是服从相同分布的,二者结合之后构建一个质量与数量都满足需求的训练数据集,那么最终训练出的分类器的分类效果将会和大量标记数据训练好的全监督分类器相当。本文尝试了主流的基于半监督学习的分类器,分类数据直接使用了最真实的网络数据,除了正文提取,简单的语言筛选,广告、垃圾文本过滤,最大限度地保留了原始的网络内容。为了提高分类效果,在尝试了几种主要的特征选择和特征抽取方法的基础上,还引入了半监督的宏特征。在分类器的选择方面,本文尝试了三类基于不同原理的分类器:传统的EM,基于直推学习的TSVM和基于深度架构的DBN。在特征方面,本文在传统特征方法上做了实验,为了提高TSVM的精度,本文首次将新的基于宏特征的方法与传统特征结合在半监督分类器上做了尝试,并取得了显著的性能提升。本文用不同类型的分类器,在标准数据集和网页数据集上进行了对照实验,达到了预期的自动分类海量网页的效果,在经过一系列预处理之后,可以用降低一个数量级的标记数据,达到与全监督分类算法相近的分类精度。
其他文献
随着计算机网络的发展,在当今的社会中计算机网络已经被广泛的应用到我们的各个领域中,像工业领域,科研机构,政府部门,金融经济都有各自特定的网络,甚至于整个普通的社会群体生活也
有线网中广泛使用的传输层协议应用于MANET等无线网络时,其性能问题是亟待解决的一个关键问题,为了解决该问题,研究者提出了链路层ARQ、分段连接、显示拥塞通知、基于网络状态的
随着以互联网为基础的各种大规模开放应用系统(如普适计算、云技术、P2P计算和Web服务等)的相继出现和应用,信任管理的研究逐渐成为信息安全研究领域中的热点。开放系统中的信
复杂系统是现实世界的重要组成部分,复杂网络是对复杂系统的抽象。研究并发掘复杂网络的性质可以帮助人们更好的理解复杂系统。随着社会的网络化以及计算机技术的不断发展,人们
为了提高基于P2P网络的匿名通信技术中通道的稳定性,本文在P2P网络和Mix系统的基础上,提出了信誉度评价的改进方法,建立一套基于信誉度的P2P匿名通信模型,并建立了匿名通信原型系
随着社会发展、科技进步和社会对气象预报服务需求的增加,对天气预测的准确度和精细化程度要求越来越高。集成预报是把不同预报方法对同一要素的多种预报结果综合在一起,从而
不确定规划是目前人工智能研究领域的一个热点问题。基于模型检测的方法在处理许多实际的不确定规划问题上有很大的优势。在完全可观察(或部分可观察)条件下,对可达性目标作规划
近些年来,随着互联网技术及P2P技术的发展,基于P2P技术的VoD系统由于可以让用户根据自己的兴趣选择在视频的任何时刻进行观看得到了迅猛的发展。P2P网络中交互式视频点播的关键
程序调试是保障软件系统可靠性的重要手段。针对软件测试时检测到的错误,程序调试要求开发人员在充分理解软件系统结构和功能需求的基础上,能够高效地定位错误位置,并开展修复工
由于牛奶是国民的重要食物来源之一,因此与奶牛相关的研究一直受到高度重视。而高产与低产奶牛在体型结构上,特别是与乳房相关的体型结构方面有明显的差异,在经历了长期的研