论文部分内容阅读
近年来,博客作为一种新的信息传播和交互方式,得到了不断的发展,使用者急剧增加,相应的信息量也跟着急剧膨胀。这时候用户想要查找和定位自己感兴趣的信息就比较困难。关键词可以为用户提供一个简单的内容摘要,在检索等应用中,关键词可以使信息的定位更简单。关键词抽取(Keywords Extraction)是利用计算机从文档中自动选择出可以反映文档主要内容主题的词,又称为关键词自动标引(Automatic Indexing)。 本文将博客的标签看作关键词,然后根据博客的内部结构和标签的一些特性,对博客关键词自动抽取技术做了一些研究: 1.在关键词抽取的过程中,我们把文本关键词抽取看成一个二类分类问题,将候选词分成关键词类和非关键词类两类,问题的解决就是要从抽取出来的候选词中找出关键词类; 2.通过对博客的标签进行研究,发现博客的标签带有一些作者的习惯性和明显的主题倾向,提出作者以及主题两种新的特征,分别将这两种特征加入到一般特征中去,来改进我们的关键词自动抽取的效果; 3.从标注语料缺乏方面考虑,把半监督机器学习的方法用于关键词自动抽取,希望可以找出利用有限的标注语料和大量的未标注语料来获得关键词自动抽取的方法。并且分别尝试了两种半监督学习方法——基于半监督学习的SVM方法和LP(Label Propagation)算法来解决关键词自动抽取的问题; 4.对进行关键词抽取过程中遇到的数据不平衡问题进行了简单的研究,并且运用代价敏感学习的方法来解决数据不平衡的问题。 最后的实验证明,我们的方法在进行博客关键词自动抽取上是有效的。加入的两个特征对于都能够提高博客关键词抽取的效果。实验中加入大量的无监督数据对于关键词抽取的效果也有所提高,这证明基于半监督学习的方法在关键词自动抽取中也是可行的。