基于LDA模型的博客垃圾评论发现

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:gny637259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。
其他文献
利用外部资源是提升句法分析性能的一种有效方法。本文利用中文词法分析器这一外部资源,提出了一种通用转换方法将中文词法分析器与句法分析器有机地融合在一起。通过基于转
临床上对肾司大便的作用有所忽略,泄泻之症多责之于脾而忽略了对肾的调治。而遇肾泄之患,又多以肾阳虚为病机。其实不然,肾泄既有肾阳虚的五更泻,也有肾气虚的久泻,还有肾阴
山区公路挡土墙的设计主要是对基层的路基填土或者是山坡上的土块提供一定的支承,避免土块的变形或坍塌,对于山区公路的建设来讲,其建设的难度相对较大,由于地势相对比较陡峭,需要
虚、毒、瘀贯穿于癌瘤病程的始末,三者相互并存、相互交织、相互影响、互为因果,形成虚→毒、瘀→虚的恶性循环,"正气内虚,毒瘀并存"是癌瘤病机的关键所在。在治法上扶正、解
通过优化的土地利用集约度测度模型,对川南地区的土地利用集约水平进行测算。结果表明,川南地区的土地利用集约度均值为0.231亿元/km~2,整体水平偏低。通过计算可得,人均用地
[主办]《建筑技艺》杂志社、中国建筑学会建筑师分会建筑摄影专业委员会、北京土木建筑学会[协办]《建筑幕墙》杂志社[赞助]广州奥雅丽固工程技术新材料有限公司由《建筑技艺
硅材料作为锂离子电池负极材料具有高的理论比容量(4200mAh·g-1)约碳负极材料(372mAh·g-1)的10倍。但是,伴随着锂离子在硅负极材料中的反复穿插,最终使得硅负极材料产生不
韵律结构的自动预测是高自然度文语转换(TTS)系统的关键组成部分,直接影响到合成语音的自然度和表现力。该文建立了一个同时具有语法信息与韵律结构标注的汉语语料库。在这一
阐述了建设共同沟的意义和国内外共同沟建设的情况,明确了建设共同沟应从规划开始认真研究,各个层面多家专业公司的协商合作,另外应尽快建立相关的法规体系。