论文部分内容阅读
互联网固有的开放性与隐匿性降低了用户在网络空间的责任感,网络信任危机与安全挑战日益严峻。通过分析用户的网络留言,提取用户在字里行间留下的、可反映其独特书写风格的“网络指纹”,即网络书写纹,可达到识别其身份的目的。从机器学习角度,网络书写纹识别是一个多类别单标签的文本分类问题。本文针对中文网络文本,围绕网络书写纹的特征提取和识别技术两个关键问题,对基于N-gram字符的网络书写纹特征提取、基于集成特征选择的识别技术和动态选择性集成策略等内容展开研究,以进一步提高网络书写纹的识别性能,提高识别模型的可伸缩性与可理解性。首先结合中文的语言特点和N-gram字符特征的优点,将变长N-gram字符特征应用于中文网络书写纹识别,通过实验研究了中文环境下N-gram字符特征的识别性能以及字符串长度N的最佳取值。然后针对N-gram字符特征具有高维、冗余和稀疏等特点,提出一种三阶段串联组合式的N-gram字符特征提取方法(Three-stage Tandem Combined N-grams Extract Method, TTCNEM),分别进行基于特征频率与分布信息的降维、基于Local Maxs规则的去冗余和基于作者个体特征域的降稀疏等三个阶段的提取操作。最后根据中文词长普遍较短的特点,提出用非连续N-gram字符特征来表示作者的书写风格,并给出了同时包含连续非连续N-gram字符的一体化特征提取方案。关于网络书写纹识别技术,本文提出了基于作者个体特征域构建识别模型的总体思路,使用基于作者个体特征域的特征集结构和基于集成特征选择技术的集成学习分类算法,训练出与待识别作者数相同的基分类器,使每一个基分类器对其关联作者具有局部最优的识别性能。为此,本文分别以性能和效率为优先考虑因素,提出了基于混合遗传算法(Hybrid Genetic Algorithm based Ensemble Feature Selection, HGAEFS)和半随机子空间划分(Semi Random Subspace based Ensemble Feature Selection, SRSEFS)两种基于集成特征选择的网络书写纹识别算法。其中,HGAEFS算法基于遗传算法框架,利用了基于作者个体特征域的特征权重信息来引导搜索过程,包括对初始种群种子个体的设置,以及对交叉和变异算子的改进。HGAEFS算法的适应度函数基于集成学习差异性理论设计,基分类器间的差异度计算采用Kappa方法。SRSEFS算法结合了基于作者个体特征域划分特征空间的思想与Kuncheva所提出的一个用于指导随机子空间法进行参数选择的概率模型,首先通过改进Kuncheva的概率模型,确定特征子集大小和重要特征个数两个参数,然后将基于作者个体特征域的特征权重信息用于引导特征空间的划分,变完全随机子空间划分为半随机子空间划分。在采用HGAEFS和SRSEFS算法所构建的网络书写纹识别模型的基础上,根据识别模型基于作者个体特征域的特点,本文将基于局部性能评估的动态选择性集成策略应用于网络书写纹识别,提出了基于Oracle的混合型动态选择性集成算法(Hybrid Dynamic Selection based on Oracle, HDSORA),以进一步提高识别性能和识别模型的可理解性。HDSORA结合了DCS(Dynamic Classifier Selection)和DES (Dynamic Ensemble Selection)两种动态选择性集成策略,首先采用KNN (K-Nearest Neighbor)与BKS (Behavior Knowledge Space)相结合的方法,从特征几何空间与分类器知识行为空间两个维度确定测试样本在特征空间的局部近邻区域,然后根据局部性能最优基分类器的信度在DCS与DES之间进行选择。在DES集成部分,融合了Oracle和LCA (Local Class Accuracy)的思想,在基分类器子集的选择中有效利用了类别信息。为验证以上方法的有效性,本文从校园论坛上采集了50个用户的实验数据。为了提高数据集的质量,在设计与采集实验数据时尽可能地排除了主题、时间等易对书写风格识别研究带来干扰的因素。通过实验研究,结果表明:(1) N-gram字符特征在中文网络书写纹识别中是有效的,可以取得和常用组合特征集相当的性能。对于定长N-gram字符特征,N的最佳取值为2。TTCNEM提取方法在保证一定识别性能的前提下,有效达到了降维、去冗余和降稀疏的目的。非连续N-gram字符特征丰富了特征项,并提高了识别性能。(2)与当前网络书写纹识别研究领域最具代表性的单分类器识别技术支持向量机(SVM)和多分类器方法(EDS)相比,HGAEFS算法取得显著的性能提升,SRSEFS显著优于EDS,并在待识别作者数较大时优于SVM。相比SVM和EDS, HGAEFS和SRSEFS均提高了识别模型的可伸缩性。对于识别模型的可理解性,HGAEFS优于SRSEFS。(3)相比简单投票法、DCS和DES等几种典型的集成方法,HDSORA方法进一步提高了网络书写纹的识别性能,并且在一定程度上提高了识别模型的可伸缩性与可理解性。在以上研究的基础上,结合“十二五”国家科技支撑计划课题“面向个体的网络行为分析、监管与保护技术研究”,设计与研制了网络行为个体书写纹分析与主体辨识系统,应用网络书写纹识别技术来解决网络行为主体的辨识问题。