融合多维特征的虚假型垃圾评论检测方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:squallcl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前的信息化生活中,在线评论数据能在很大程度上决定人们是否对某一产品进行消费,所以为获取更大的商业利益,商家可能会雇佣专业垃圾评论者撰写垃圾评论捧高自身产品或遍贬低竞争者产品影响消费者的消费选择。因此,为保证正常的用户评论环境,需要研究如何检测垃圾评论。目前主流的方法是通过设计构造特征分类器的方式检测垃圾评论,但这种方法没有对评论特征进行深层次、多角度的挖掘,也没有基于评论特征的特点有针对性的设计检测模型融合评论特征,导致了特征提取不完全或特征融合时部分信息的丧失,以至于无法进一步提高垃圾评论检测精度。针对目前垃圾评论检测中特征提取所存在的问题,从评论文本和评论行为两个方面入手,以评论文本为中心,分析了正常评论与垃圾评论在文本主题、文本情感、文本语义上的差异,针对差异设计提取了主题特征、情感特征、语义特征等三种不同的评论文本特征;以评论行为为中心,分析了正常评论与垃圾评论在评论行为过程中行为发出者、行为接收者、行为载体三个角度的行为差异,针对差异设计提取了评论行为特征。以特征提取为基础,分析了特征的层次结构以及特征间的相互特点,利用注意力机制,首先对评论文本特征内部的主题特征、情感特征、语义特征进行了融合,再对评论文本特征和评论行为特征进行了融合,采用分层融合的方式构建了一种垃圾评论检测模型。以Yelp评论数据为例对所提模型进行了实验分析。首先分析了不同参数的主题特征和情感特征对模型检测效果的影响,其次对模型进行了对比分析,相比基准模型,所提分层融合模型在多个实验指标上均有了较大提升,其检测效果优于基准模型。综合实验结果可知,所提方法对垃圾评论检测是有效的,是有意义的。
其他文献
学位
随着互联网时代的到来,互联网技术被广泛应用于各个行业、各个领域,其中也包括教育领域。高校针对学生(主要为应届生)提供的就业服务的发展也是日益完善。基于互联网的高校就业服务指导工作创新凸显了互联网时代“互联网+就业服务指导”的创新有效性,为高校在该领域健康有效发展创造了契机,也凸显了互联网的诸多技术优势。本课题针对高校就业指导中心、应届毕业生和企业的实际需要,设计并开发了高校就业服务系统。本课题根据
学位
近年来,随着科技的进步和发展,人类生活的计算和存储需求在不断增加,集群技术的应用也越来越广泛。然而,随着集群规模的扩大,集群管理问题也日益凸显。由于集群中节点的异构性,物理分散性和节点数目的不确定性等问题,目前的集群管理系统在通信复杂度,数据的一致性以及跨平台的可视化上还存在很大的弊端。针对现有集群管理系统的弊端,论文提出了一种基于ZooKeeper的集群管理方案,并使用图形界面程序Qt进行可视化
近些年来,由摩尔定律推动的中央处理器体系结构改进,使得处理器性能以及多核技术取得了高速发展。ARM处理器是典型的多核体系结构,单个芯片可包含几十内核。然而,多核技术加剧了系统中存储器带宽的争用,导致访存密集型应用程序性能下降。内存系统与处理器之间的性能鸿沟越来越大,访存时延成为制约系统性能提升的主要瓶颈之一。为了满足现代多核处理器对数据访问带宽和时延的需求,新兴的异构存储系统已成为继续扩展存储性能
窗口吸波体天线罩技术可以使机载天线在工作频段内正常通信,在带外威胁频段实现吸波,有效降低天线的双站RCS。而吸波/透波中如何实现陡截止性能是高选择性窗口吸波体的关键问题。因此,本文主要对高选择性窗口吸波体的设计方法进行了研究。首先从二端口网络理论出发分析得到窗口吸波体的快速设计方法,将指标分放到每一功能层上,通过单独设计每一层的性能来达到快速设计窗口吸波体的目的。根据传输线理论分析、建立了传输极点
随着时代的发展,人们越来越愿意在网上发表言论和分享生活,智能手机的广泛普及使得人们在社区或者论坛发帖越来越便利。然而帖子数量的剧增,不仅造成了网站管理的困难,也增加了用户获取资源的难度。因此,如何对以帖子为载体的社区内容进行分类,成为了社区系统一个必不可少的功能。针对社区内容的特点,构建了一个组合分类模型,该模型由以下几个部分组成:首先,针对作为社区内容的帖子存在口语化、特征少的问题,提出以词向量
脑梗死是一种高致残率和死亡率的急性脑血管疾病,伴随着生活水平和平均寿命的增长,患病人数呈爆炸性增长趋势。由于缺乏通用且有效的治疗方式,临床上对脑梗死的治疗一般采用防治结合、重在预防的思路。其中,脑梗死高危人群筛查旨在提前发现易患脑梗死的高危人群,进而通过预防干预来延缓或者避免急性临床事件,减轻对个人和家庭的负担。现有的一些研究将收集到的危险因素特征当作一般的单视图结构化数据处理,忽略了其多视图特性
装甲的制作自古有之,在古人所制众多种类的铠甲中,纸甲、绢甲这类纤维增强复合材料的铠甲,在当今这个武器杀伤力越来越大的时代,依然具有生命力,为各国竞相研究的热点。为了更深入的理解纤维增强复合材料的防弹机理,理解纤维增强复合材料中界面对抗侵彻性能的影响,研发出性能更高的防弹复合材料,本文建立了碳纤维复合材料的多尺度数值模型,进行了微观与宏观的跨尺度模拟研究,在不同尺度之间进行参数传递,建立微观组织与宏
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对这样大量的数据,通过人工或者传统的算法进行分析处理变得十分困难。如何从繁杂的网络环境中对这些信息进行有效地采集和发现成为了亟需解决的问题。智能化信息发现和采集系统,分为信息采集模块和信息发现模块。信息采集模块通过主题爬虫的方式,仅需要提供目标网页,就能通过计算网页相似度,在网络中