基于集成特征选择的网络书写纹识别研究

来源 :华中师范大学 | 被引量 : 1次 | 上传用户:lucieming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网固有的开放性与隐匿性降低了用户在网络空间的责任感,网络信任危机与安全挑战日益严峻。通过分析用户的网络留言,提取用户在字里行间留下的、可反映其独特书写风格的“网络指纹”,即网络书写纹,可达到识别其身份的目的。从机器学习角度,网络书写纹识别是一个多类别单标签的文本分类问题。本文针对中文网络文本,围绕网络书写纹的特征提取和识别技术两个关键问题,对基于N-gram字符的网络书写纹特征提取、基于集成特征选择的识别技术和动态选择性集成策略等内容展开研究,以进一步提高网络书写纹的识别性能,提高识别模型的可伸缩性与可理解性。首先结合中文的语言特点和N-gram字符特征的优点,将变长N-gram字符特征应用于中文网络书写纹识别,通过实验研究了中文环境下N-gram字符特征的识别性能以及字符串长度N的最佳取值。然后针对N-gram字符特征具有高维、冗余和稀疏等特点,提出一种三阶段串联组合式的N-gram字符特征提取方法(Three-stage Tandem Combined N-grams Extract Method, TTCNEM),分别进行基于特征频率与分布信息的降维、基于Local Maxs规则的去冗余和基于作者个体特征域的降稀疏等三个阶段的提取操作。最后根据中文词长普遍较短的特点,提出用非连续N-gram字符特征来表示作者的书写风格,并给出了同时包含连续非连续N-gram字符的一体化特征提取方案。关于网络书写纹识别技术,本文提出了基于作者个体特征域构建识别模型的总体思路,使用基于作者个体特征域的特征集结构和基于集成特征选择技术的集成学习分类算法,训练出与待识别作者数相同的基分类器,使每一个基分类器对其关联作者具有局部最优的识别性能。为此,本文分别以性能和效率为优先考虑因素,提出了基于混合遗传算法(Hybrid Genetic Algorithm based Ensemble Feature Selection, HGAEFS)和半随机子空间划分(Semi Random Subspace based Ensemble Feature Selection, SRSEFS)两种基于集成特征选择的网络书写纹识别算法。其中,HGAEFS算法基于遗传算法框架,利用了基于作者个体特征域的特征权重信息来引导搜索过程,包括对初始种群种子个体的设置,以及对交叉和变异算子的改进。HGAEFS算法的适应度函数基于集成学习差异性理论设计,基分类器间的差异度计算采用Kappa方法。SRSEFS算法结合了基于作者个体特征域划分特征空间的思想与Kuncheva所提出的一个用于指导随机子空间法进行参数选择的概率模型,首先通过改进Kuncheva的概率模型,确定特征子集大小和重要特征个数两个参数,然后将基于作者个体特征域的特征权重信息用于引导特征空间的划分,变完全随机子空间划分为半随机子空间划分。在采用HGAEFS和SRSEFS算法所构建的网络书写纹识别模型的基础上,根据识别模型基于作者个体特征域的特点,本文将基于局部性能评估的动态选择性集成策略应用于网络书写纹识别,提出了基于Oracle的混合型动态选择性集成算法(Hybrid Dynamic Selection based on Oracle, HDSORA),以进一步提高识别性能和识别模型的可理解性。HDSORA结合了DCS(Dynamic Classifier Selection)和DES (Dynamic Ensemble Selection)两种动态选择性集成策略,首先采用KNN (K-Nearest Neighbor)与BKS (Behavior Knowledge Space)相结合的方法,从特征几何空间与分类器知识行为空间两个维度确定测试样本在特征空间的局部近邻区域,然后根据局部性能最优基分类器的信度在DCS与DES之间进行选择。在DES集成部分,融合了Oracle和LCA (Local Class Accuracy)的思想,在基分类器子集的选择中有效利用了类别信息。为验证以上方法的有效性,本文从校园论坛上采集了50个用户的实验数据。为了提高数据集的质量,在设计与采集实验数据时尽可能地排除了主题、时间等易对书写风格识别研究带来干扰的因素。通过实验研究,结果表明:(1) N-gram字符特征在中文网络书写纹识别中是有效的,可以取得和常用组合特征集相当的性能。对于定长N-gram字符特征,N的最佳取值为2。TTCNEM提取方法在保证一定识别性能的前提下,有效达到了降维、去冗余和降稀疏的目的。非连续N-gram字符特征丰富了特征项,并提高了识别性能。(2)与当前网络书写纹识别研究领域最具代表性的单分类器识别技术支持向量机(SVM)和多分类器方法(EDS)相比,HGAEFS算法取得显著的性能提升,SRSEFS显著优于EDS,并在待识别作者数较大时优于SVM。相比SVM和EDS, HGAEFS和SRSEFS均提高了识别模型的可伸缩性。对于识别模型的可理解性,HGAEFS优于SRSEFS。(3)相比简单投票法、DCS和DES等几种典型的集成方法,HDSORA方法进一步提高了网络书写纹的识别性能,并且在一定程度上提高了识别模型的可伸缩性与可理解性。在以上研究的基础上,结合“十二五”国家科技支撑计划课题“面向个体的网络行为分析、监管与保护技术研究”,设计与研制了网络行为个体书写纹分析与主体辨识系统,应用网络书写纹识别技术来解决网络行为主体的辨识问题。
其他文献
小学德育内容脱离生活世界,德育手段单一化等严重阻碍了小学生品德的发展。道德来源于生活,在活动中产生。同时,小学生社会经验不足、是非观念淡薄、理论思维能力不强,单纯的
中国和泰国一直有着频繁的产品进出口贸易。同作为亚洲国家,作为东盟的成员,为促进区域经济的发展,两国国家政府一直在努力完善贸易政策,并努力采取各项实际措施来促进两国经
腓骨部分切除是临床上较常见的手术方法,多用于腓骨肿瘤、慢性骨髓炎和严重腓骨骨折等治疗,尤其是腓骨骨折一直是临床关注的热点。腓骨部分切除后对供区功能会产生多种影响,
<正>1问题的提出解题反思属于反思性学习的范畴,它是对解题活动的深层次的再思考,不仅仅是对数学解题学习的一般性的回顾或重复,而是深究数学解题活动中所涉及的知识、方法、
本文阐述了高校实行物业管理服务外包的原因,分析了其优势与劣势,提出了优化高校物业管理体制的对策。要切实把握高校物业管理体制改革重点,选择好服务外包的模式和项目;落实
超声波清洗设备的发展方向目前有二个:一个是从单缸机到多缸机或自动化的超声清洗生产线(含链条式或升降式);另一个是,从低频超声清洗机到高频超声清洗机.
本文概述了电商环境下电子货币发展现状,探讨电子货币对控通胀的影响,以电子货币对通货的放大和加速效用为依据,提出相关对策和建议:央行在制定控制通胀的手段时需要建立完善
针对国家对新药保护政策的种种不足,国务院法制办宋瑞霖最近撰文指出根治此顽疾的最好办法是予以废除,作者认为“中国入世后的主要义务之一是按照世贸组织的规则和我们对外承
自1982年,美国加州工学院物理学家J.Hopfield提出了Hopfield神经网络模型以来,人工神经网络理论与应用方面的研究形成世界性的热潮。人工神经网络可以进行多种不同的信息处理