特征判决聚类算法对系统中垃圾用户检测的优化研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:yxyqt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线社交网络(OSN,Online Social Net)拥有庞大的用户群,吸引来自不同行业和年龄段的用户。尽管大多数OSN主要用于各种良性用途,但其自身的开放性、庞大的用户群和实时消息扩散使其成为网络罪犯有利可图的目标。OSN已被证明是一种新的具有复杂攻击和威胁的孵化器,例如网络欺凌、传播谣言,网络诈骗和其他非法活动。新浪微博被认为是非常受欢迎的在线社交网络,它已经成为人们社会生活中重要的信息传播和交流平台。海量的微博数据包含了大量有价值的信息,但近年来微博平台出现了大量的垃圾用户,通过多种途径传播各类垃圾信息。这不仅影响了微博数据挖掘和决策分析,也严重影响了微博平台和用户体验的健康发展。除此之外,随着微博功能的不断更新,用户特征维度也随之更加复杂,使得有效特征难以提取,造成分类精度不够理想且复杂度高的问题;同时多维用户数据中大量冗余和无关特征直接影响后续分类性能,甚至增加复杂度。针对在线社交网络用户数据的特征选择和分类两方面问题,提出特征判决聚类算法(FDCA,Feature Decision Clustering Algorithm)。算法主要由两个部分组成,预处理阶段:黑名单关联聚类算法作为算法的预处理,通过一种新的聚类框架从网络交互的数据集中识别执行恶意任务的用户簇。首先利用定义的相似性度量构建ID-ID无向图,然后利用测量统计相关性来测量黑名单与用户ID的相关性,并使用给定的黑名单来找到最佳阈值删除相关性弱的边缘得出ID簇,再判断ID簇的标准化残差是否大于3,最终得出与黑名单高度相关联的垃圾簇。通过预处理能快速剔除大量垃圾账户,接着利用用户的特征对用户进行进一步聚类。特征判决聚类阶段:首先使用具有特征加权熵的模糊C均值目标函数,为参数构建一个学习模式,通过多次迭代计算得出每个特征权重,剔除不相关或冗余的特征分量,对特征进行判决并选择,迭代地更新隶属函数、簇中心和特征权重直到最优化为止,最终识别出具有高精度的垃圾用户簇。为了验证算法的有效性,在Python平台上选取已标记的微博用户数据集作为仿真数据集,首先为预处理仿真,该部分包含寻找最佳阈值和预处理分析;其次是算法目标函数收敛与性能指标分析;然后是算法聚类性能对比分析,该部分将数据集分为3种不同数据正负样本比,将所提算法与SDAFS算法,ELAFC算法和NADMB算法进行对比,详细对比了不同算法在不同正负样本数据集情况下分类情况;四种性能指标对分类效果影响情况。接着是特征选择分析,仿真分析FDCA算法所选特征权重分布情况,并通过统计显著性分析来验证算法所保留特征在用户间的差异是否是随机的问题,验证了算法特征选择的有效性;最后是特征数目对分类效果影响分析,探究特征个数对不同算法性能的影响情况。仿真结果表明,FDCA算法在三个主要性能指标上均有提升,且证明了算法中嵌入的特征选择,在保证高分类精度的前提下,有效降低了时间复杂度。同时,对出现的大量冗余特征的条件下也能保持较好的分类性能,具有良好的鲁棒性。
其他文献
语音端点检测的目的是从语音信号中区分出语音段(有声段)和非语音段(无声段),但是语音信号中往往会伴随着各种噪声,噪声的存在直接影响了端点检测的性能。本文从基于特征参数的语音端点检测方法出发,对噪声环境下的语音端点检测展开研究,具体的研究工作包含如下方面:一、针对基于单特征的语音端点检测方法所用特征在低信噪比环境下鲁棒性不佳的问题,本文将语音信号Gammatone频率倒谱系数(Gammatone F
太阳暗条存在于日冕中,是由低温高密度的等离子体组成。强烈的暗条爆发活动会影响地球磁层,严重时将导致通信设备受损,造成通信中断、航空运输导航失效等。此外,暗条作为太阳大气磁场的示踪,对暗条进行研究有助于探究太阳磁场的结构和演化规律。因此对暗条准确地检测作为相关研究的基础和前提,具有重要的科学意义。针对现有的暗条检测方法存在数据集不准确、检测结果精度不高,弱小暗条错检、漏检等问题,本文首次结合太阳磁图
刀具磨损状态监测技术是先进制造技术中的重要组成部分。刀具磨损的实时监测对于提高产品质量,降低制造成本和提高生产效率具有重要作用。然而,该技术发展至今,仍然不能够真正应用于实际加工中,也未能很好地解决变工况加工条件下精确识别刀具磨损状态的问题。为此,本文通过对车削刀具磨损状态监测技术的研究,建立了基于多特征融合和多数投票法的车削刀具磨损状态识别模型。主要研究内容及结果如下:首先,对刀具磨损状态监测的
脑-机接口是一种变革传统人机交互的技术,其中情绪脑-机接口是一类重要的脑-机交互,可望为情绪的调节、监测或评估提供定量的方法,有潜在的重要应用价值。然而,情绪相关的EEG信号特征提取与识别尚未彻底解决,面临许多挑战,因此,本文基于运动调节情绪的方式,探索合适的情绪诱发实验范式,分别提取情绪相关EEG信号的时域、频域、时-频域和空域的特征,并进行情绪相关EEG信号的特征筛选,从而筛选出与情绪密切相关
随着大数据时代的降临,信息技术发展上升到了一个新的历史阶段,影响着社会生产模式和人们生活的方方面面。智能移动设备、智能家居产品都在不停地生产数据,大量数据中也隐藏着巨大的利益价值。传统数据挖掘算法在大规模数据集上训练模型时,会出现训练效率不高,因此对传统数据挖掘算法的改进变得刻不容缓。支持向量机(Support Vector Machine,SVM)对比其他常用的数据挖掘分类算法,在算法训练过程中
语音作为人机交互效率最佳的方式,是人工智能领域的热点研究对象,但由于受环境等因素的影响,机器接收到的语音信号容易被严重干扰,导致智能设备难以获取准确的语音信息,进而影响人机交互效率。语音分离是语音增强技术的重要分支,该技术主要针对说话人之间的语音干扰,但由于语音干扰不同于噪声干扰,无法对其进行分布近似假设,因而一直以来都是学者们研究的热点。传统的基于信号处理的语音分离方法在分离过程中常丢失部分有用
互联网的飞速发展极大满足了人们信息交流的需求,促进了科技、教育、文化等方面的快速发展,并成为人们日常工作、学习和生活中不可或缺的部分。互联网技术在给人们提供服务的同时,也不断的带来各式各样的问题,对信息安全产生严重的威胁。互联网的良性发展得益于不断改善的入侵检测技术。入侵检测技术成为一种应对网络安全问题的有效方法,主要得益于其可以搜集网络上计算机系统中不同结点的有效性信息,分析和检查网络中是否存在
互联网应用的飞速发展使得传统商业交易环境产生了巨大的变化,以互联网为媒介向用户提供在线服务的方式快速普及。在线服务信誉是多种在线服务信用行为累积的结果,可以辅助用户选择出优质服务。为了提高自身影响力或者降低对手影响力,恶意用户或者在线服务提供者可能操纵、攻击信誉系统,致使在线服务的信誉失真,当利用被操控的信誉来选择服务时可能会误导用户判断,因此用户面临无法选择到满足其偏好服务的风险。信誉系统管理者
行人再识别(Person Re-identification,Re ID)是指在多个不重叠的摄像机拍摄的图像序列或视频中识别指定的行人,这项技术对于安防监控,智能零售等领域尤为重要。由于拍摄的行人图像存在光照强度、背景和遮挡等不可控因素问题,从而增加了识别行人的难度。而基于局部特征的Re ID方法在解决这些问题具有潜在的鲁棒性,但其只关注局部区域信息,忽略了与全局信息的互补,限制了进一步提高识别性
为解决老龄、残障人士助力助行的问题,结合日趋成熟的机器人技术,开发可穿戴的下肢外骨骼机器人的装置,辅助恢复步行障碍患者的机体功能。本文依托江苏省产业前瞻与共性关键技术重点项目:敏捷性助老助残外骨骼机器人关键技术研发,开展了下肢外骨骼机器人的相关研究:第一,完成下肢外骨骼机器人关节自由度配置和下肢机构基本参数;设计串型弹性驱动器的外骨骼柔性驱动关节,进行驱动模块的主要零部件选型;借鉴传统刚性外骨骼,