基于半监督学习的关键词抽取

来源 :厦门大学 | 被引量 : 0次 | 上传用户:tp137907226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,博客作为一种新的信息传播和交互方式,得到了不断的发展,使用者急剧增加,相应的信息量也跟着急剧膨胀。这时候用户想要查找和定位自己感兴趣的信息就比较困难。关键词可以为用户提供一个简单的内容摘要,在检索等应用中,关键词可以使信息的定位更简单。关键词抽取(Keywords Extraction)是利用计算机从文档中自动选择出可以反映文档主要内容主题的词,又称为关键词自动标引(Automatic Indexing)。  本文将博客的标签看作关键词,然后根据博客的内部结构和标签的一些特性,对博客关键词自动抽取技术做了一些研究:  1.在关键词抽取的过程中,我们把文本关键词抽取看成一个二类分类问题,将候选词分成关键词类和非关键词类两类,问题的解决就是要从抽取出来的候选词中找出关键词类;  2.通过对博客的标签进行研究,发现博客的标签带有一些作者的习惯性和明显的主题倾向,提出作者以及主题两种新的特征,分别将这两种特征加入到一般特征中去,来改进我们的关键词自动抽取的效果;  3.从标注语料缺乏方面考虑,把半监督机器学习的方法用于关键词自动抽取,希望可以找出利用有限的标注语料和大量的未标注语料来获得关键词自动抽取的方法。并且分别尝试了两种半监督学习方法——基于半监督学习的SVM方法和LP(Label Propagation)算法来解决关键词自动抽取的问题;  4.对进行关键词抽取过程中遇到的数据不平衡问题进行了简单的研究,并且运用代价敏感学习的方法来解决数据不平衡的问题。  最后的实验证明,我们的方法在进行博客关键词自动抽取上是有效的。加入的两个特征对于都能够提高博客关键词抽取的效果。实验中加入大量的无监督数据对于关键词抽取的效果也有所提高,这证明基于半监督学习的方法在关键词自动抽取中也是可行的。
其他文献
对于不能得到准确系统方程的复杂系统,我们无法通过传统的故障诊断方法进行管理监控。但同时,系统运行过程中时刻产生大量反映系统运行机理和运行状态的数据,如何利用这些数
随着视频监控技术在人们生活中日益广泛的应用,视频监控技术受到了很多科研工作者的广泛研究。其中,图像预处理、运动目标检测、目标分类以及运动目标跟踪是完成视频监控的主
随着基因组计划对物种遗传信息研究的发展,基因组注释、短序列比对分析已成为生物信息学研究的热点问题。为此,需要建立能够集成并可视化包含基因组注释、短序列比对等基因组
无线传感器网络是一种新型的网络技术,它由大量资源有限的微型传感器节点组成,这些节点被随机部署于监测区域,节点间通过协作自主完成数据采集传输、事件监测等各种任务。如何在
风能是一种重要的和最具竞争力的可再生清洁能源,以风力发电为主的新能源发电在全球范围内得到了快速发展。然而风电是一种不确定性能源,风的随机性和间歇性使得大规模风电并
铝电解是一个高耗能的流程工业,随着我国提出落实科学发展观,构建节约型社会的目标,充分利用当今先进的信息技术到铝电解行业中,实现铝电解工业的低污染、高效率和高度智能化是当
近年来,高速铁路运输在社会经济中扮演着越来越重要的角色,与传统列车相比,高速列车更快速、经济、环保。但是其对控制系统的要求也越来越高。传统的集中控制方法虽然应用广
目前,政府对风电行业的投资力度已日益增大。针对风电场大规模建设已导致气候变化的问题,发展中小型独立风电机组可能是未来可再生能源的选择之一。论文在分析现有中小型独立
在大量非线性用电设备投运电网的压力下,电网消耗了大量的无功功率,谐波含量的比重也越来越大,这不仅增加了电网的供电损耗,降低了功率因数,而且对用电设备的正常运行也构成
在制造业领域,多轴联动系统主要指用于精密加工的数控系统和工业机器人。由于多轴系统具有较强的耦合特性、时变特性和非线性特性,传统的PID控制显然不能满足对其高速高精度控