论文部分内容阅读
大学生的心理健康是当今社会重点关注的问题。由于所处年龄段、生活空间、文化层面的特殊性,大学生情绪比较敏感,容易产生孤独、压抑或自卑等负性情绪,这不仅会影响自己的学习和生活,还容易传染给周围的人,而长期处于负性情绪状态可能导致严重后果。因此,负性情绪分析和个体识别对于增进大学生心理健康、预防和治疗问题行为等都具有重要意义。由于情绪自身的复杂性,长久以来,个体情绪测量主要依赖于心理学量表测评,这种方式需要对被试进行干预,而且被试群体的文化层次和敏感性因素也会在一定程度上影响测量的效果。文本情绪分析技术为情绪的测量提供了一种新的途径,它可以不加干预地对个体情绪进行分析和跟踪,增强研究结论的生态效度,具有良好的发展前景。本文采用基于机器学习的方法对大学生论坛文本内容进行情绪分析,并对大学生负性情绪个体展开识别研究,为后续的心理干预和辅导提供参考。该研究主要面临着两方面的困难:一方面,论坛文本具有长度偏短、话题宽泛而且表达不规范等特点,不利于情绪特征的选择和提取;另一方面,由于情绪文本数量巨大且各类别数量不均衡,严重影响情绪分类的识别准确性。因此,亟需提出一种有效的方案来解决特征选择、特征稀疏性以及情绪类别文本数量不平衡的问题,以提高识别性能。鉴于此,本文的研究工作和创新点主要包含以下三个方面:(1)针对论坛情绪文本特征稀疏性的问题,提出了一种基于多类别特征组合的特征集构建方法。该方法在对论坛文本的特征进行深入分析后,综合词语特征、组合N-gram特征、共现词语特征和词簇特征构建论坛文本情绪分类的特征集。不同类别的特征可以获取文本多个方面和不同程度的情绪线索,综合这些线索可以更加准确地表示文本所包含的情绪。首先在构建词语和组合N-gram两类应用最为广泛的特征基础上,针对传统的特征选择方法关注特征与类别的贡献关系而忽略了特征之间的联系的问题,引入表示词语特征之间共现关系的共现词语特征;针对文本长度较短可能引起的零特征问题,引入基于词向量聚类生成的词簇特征。继而利用特征选择算法对各类别特征进行评估,选择具有良好分类能力的特征构建特征集,并定义冗余规则去除组合过程中带来的特征冗余。将多类别特征组合的特征集构建方法应用于论坛文本的正负性情绪分类,实验结果表明该方法能有效提高分类的识别效果。(2)针对多类别情绪分类中某些情绪类别数量较小的问题,提出一种基于样本中心点距离欠采样的策略选择的子空间分类算法(Strategic Dynamic Subspace and Distance Based Under Sampling Method,SDS&DBUSM).该算法基于随机子空间(RSM)算法,主要在两个方面进行改进:一方面针对RSM在生成子空间时,采用完全随机采样可能导致子空间质量不高的问题,提出利用策略选择特征的方法提升子空间质量。通过权重算法计算各特征识别能力,再根据识别能力策略选择良好识别能力的特征,同时保证子空间的差异性和高质量,整体提升集成学习的效果。另一方面考虑到情绪类别帖子不均衡性问题,采用基于样本中心点距离的欠采样的方法,去除子空间中噪声样本和冗余样本,有效地提高了对少数类别的识别效果。实验证明,SDS&DBUSM比单分类器算法和传统RSM算法获得更好的性能。(3)针对基于文本情绪研究如何进行个体情绪测量方面的研究不足,提出一种基于论坛文本情绪分类的个体情绪测量的方法。该方法根据大学生用户在论坛中的行为表现,综合多种情绪因子的方式来对个体的情绪进行测量。除了考虑用户在论坛中发布的帖子情绪类别之外,还考虑用户的登陆情况、帖子统计情况、帖子用词情况等多种情绪表达因子,综合计算个体情绪值,进一步根据情绪值划分个体情绪类别。与基于心理学量表的方法相比,这种方法可以提高个体情绪测量效率,动态跟踪被试的情绪变化,为后续心理辅导提供参考和支持。