基于改进TF-IDF算法的不良网页检测模型

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:zhefen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,人们可以方便的从各类网页上获取海量信息和资源,生活生产方式与互联网的联系越来越紧密,然而网络规模逐渐扩大,网络技术逐渐发展的同时,利用互联网从事黑产灰产的事件也在不断发生,其中常见的手段之一就是建立不良网页,诱使浏览者进行点击,从而获取浏览者隐私或者将浏览者引入骗局。但是网页数量以亿计,人工检测不良网页难度较大,同时现有不良网站检测手段大多以单一的正文文本为主,未考虑到网页的标题,图片等网页元素,因此本文提出了一个基于TFIDF算法的不良网站检测模型,既可以区分文本的不同来源从而赋予不同的权重值,同时加入了色情图片识别模块,对网页的图片进行判定。TF-IDF算法是一种在文本分类领域中常用的分类算法,是以计算得到的权重值来估算单独的词汇对某一个文本或者是某个语料库的重要算法原理。TF-IDF算法的核心思想为在文本中某个词汇对于该文本内容的重要程度与该词语在文中出现的频次成正比,基于改进的TF-IDF算法的不良网页检测模型主要分为以下工作:1.建立色情图片检测模型,采用检测肤色占比方法判断图片是否为色情图片,工作内容包括图片中肤色像素的识别的训练和研究、人体矩形的确定方法和色情图片的判定标准。2.对于网页中会在图片中出现文字,这类文字对于网页内容判断具有一定意义,所以对图片中的文字识别方法进行研究,工作内容包括图片中文字定位、文字识别的研究。3.网页中文本均是以段落形式出现,所以需要对文本进行分词和匹配,工作内容主要为分词方法的研究、停用词和敏感词词库的建立以及词语的匹配方法研究。4.将文本段落进行分词后,需要去除停用词,然后计算每个词语权重值,由于出现在网页中的位置不同,该文本产生的词语权重值应有所差别,所以本论文将TF-IDF算法加以改进,使网页中标题、图片中的文字、正文文字三种来源词语均按照不同的权重值计算方法计算。5.对判定方法的研究:将各个子模块的输出内容进行汇总计算,输出对目标网页是否是不良网页的判定结果。通过对基于改进TF-IDF算法的评测,可以发现在不良网页识别中,识别率可以达到85.8%,在不良网页和正常网页识别中,精确度达到0.9905,召回率达到0.9413,Fscore值达到0.2413,对于传统的不良网页检测的方法在性能方面均有提升。
其他文献
长距离的温度监测在工程实际场景中有着广泛的用途,在输气管线泄漏监测、高压输电线路以及电缆廊道等大范围、长距离场景中都需要对温度进行准确、快速且高空间密度的测量监控。近年来,在光纤传感领域,基于拉曼散射的分布式温度测量系统、基于布里渊散射的光时域分析仪以及基于光纤光栅的温度测量系统已经大量投入了实际使用,这些产品在传感距离上实现突破时往往很难兼顾测量精度和响应时间等其他指标,或者精度高响应快但是传感
随着我国经济高速发展,园区广泛建设,城市化、信息化、应用化逐渐融为一体,水平不断提高,“智慧城市”“智慧园区”理念深入人心。当前智慧园区监控水平还有待提高,存在如操作体验不强、监控系统单一、管理困难、维护成本高等问题,应把信息三维可视化、监控安防统一化、管理维护人性化有机地结合起来。本文基于三维虚拟地球引擎Cesium对园区内强弱电信息进行二三维可视化监控系统的设计与开发,有效提升了监控管理和信息
相位敏感型光时域反射计(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)是一种新型全分布式光纤传感技术,能够承受较高压力,并且检测范围很广,而由于光纤的特殊性,它还能够耐腐蚀,灵敏度也特别高,自然就成为了通信等各个领域研究发展的一种重要技术。相比于其他现有的光纤传感技术,Φ-OTDR的主要优势在于能够检测更加微弱的外界振动信息,更为
在享受时代和网络不断向前发展所带来的服务和技术的同时,也面临着网络发展时代变化带来的种种问题和挑战。僵尸网络就是其中较为突出的一种,可实施盗窃,入侵,远程操作肉鸡等多种攻击行为。能够通过网络流量,而不是后知后觉地监视受感染主机的方式,较早较快地通过网络流量来发现和识别僵尸网络是未来的一种必然选择。本文的主要工作如下:1.使用长短期记忆网络(Long Short-Term Memory,LSTM)代
当今信息时代,面对海量的图像、文本、音视频等多种形式的信息,在进行处理时如何快速准确地获取到各类工作所需要的信息,从而提升工作效率,是当前信息领域的研究大方向。其中对文本数据的研究、即自然语言处理中,信息抽取以其对文本最基本要素信息等的处理,成为重点研究任务。信息抽取有三个子任务,分别为实体抽取、关系抽取和事件抽取。其中实体抽取和关系抽取是很多复杂自然语言处理任务的起始任务,其结果对下游任务影响很
近年来,城市中的安全隐患日益增多,各类灾害事故呈现出风险高,危害大的特点,安全隐患日益增多的主要原因是社会经济持续快速发展,城市规模不断扩大导致的人口大量聚集,因此社会公共安全需求日益增加。随着城市化进程的持续进行,城市高层、地下、商业综合体、地铁、隧道等建筑发展迅猛,导致公安消防局现役防灭火力量严重不足,消防官兵长期疲劳作战,火灾防控压力巨大。国务院《促进大数据发展行动刚要》(2015)指出要推
音频场景分类(Acoustic Scene Classification,ASC)是将音频与其录制场景对应起来的一种方法,是计算机听觉场景分析的重要课题之一。音频场景分类,主要是通过提取音频信号的特征,并将经过分析的特征分类到与之对应的场景。目前的音频场景分类系统主要由音频特征提取和分类器两部分组成,提取的音频特征主要包括梅尔频率倒谱系数和对数梅尔谱图,分类器主要包含循环神经网络,卷积神经网络以及
近年来,由于管道的老化、人为破坏、自然灾害等因素,油气管道泄漏事故频发,不仅对人民的生命财产安全构成一定威胁,还对环境造成污染,因此管道泄漏检测技术的研究具有重要意义。φ-OTDR(phase-sensitive optical time-domain reflectometer,相位敏感光时域反射计)分布式光纤振动传感系统具有可连续分布式测量、灵敏度高、测量距离远等优点,非常适合应用于油气管道的
传统的维汉机器翻译主要是利用维汉平行语料库,基于词对齐、短语对齐的流程,完成双语词典和语言模型的训练,并且实现最终的翻译。维吾尔语是少数民族语言,也属于词素变化较为丰富的黏着语言,现实中严格意义的维汉平行语料库相对匮乏。本文针对很难获取大量的维汉平行语料库以及现有维汉机器翻译模型并未充分利用维汉语言之间共通性的问题,主要进行了两个部分的研究工作。其一,本文利用时间、空间、主题三种维度从互联网上爬取
当今时代,以太网传输得到了迅猛的发展,传输流量日益增大,传输网络面临着巨大压力,同时,以太网传输对网络中时间同步的精度要求也越来越高。针对这一问题,本文结合IEEE1588v2协议,提出了消除时间戳抖动的有效方法:FIFO水线控制反压法和均匀包络速率刻画方法,实现了100G以太网PCS子层的功能和高精度时间同步,并对100G以太网物理编码子层(PCS)结构进行了优化,详细分析了物理编码子层中各个模