论文部分内容阅读
博客作者往往允许读者在文章后发表评论,许多评论充斥着形形色色的垃圾信息,破坏了博客社区的和谐.在向量空间的基础上构造了一个相关模型,将博客的文章和评论分别分词后,根据模型计算评论和文章的相关度,来判断是否为垃圾评论,该模型不需要训练样本,在一个中文博客测试集上,召回率和准确率分别达到82%和91%.