论文部分内容阅读
序列数据作为常见的数据类型,既拥有相邻子序列间的局部特征,又包含整体序列的全局特征。短文本可以被看成是由词组成的特殊序列,现有的短文本序列表示方法忽视了词间强语义组合的存在,造成显著特征的丢失,并且现有短文本分类方法忽视了数据间的高阶语义关联。此外,现有的分类方法仅基于短文本序列中的局部或全局特征,单一视图难以全面描述数据固有的特征。本文将针对上述问题展开研究工作。本文以短文本序列的有效表示为出发点,提出了基于语义表示的短文本序列分类算法,利用短文本间的高阶语义关联进行分类决策。算法首先采用改进的密度聚类算法对预训练的词向量进行聚类,然后利用聚类结果挖掘文本序列中潜在的语义单元,将原始文本表示成语义单元序列,完成短文本序列的语义表示。随后使用卷积神经网络学习序列中的局部高阶特征表示,并以此构建超图模型,利用样本间的高阶语义关联,实现短文本序列的分类。为了学习短文本序列中更全面的特征表示,进一步提高分类模型的可靠性,本文提出了短文本序列的多视图特征学习算法。该算法利用两种深度计算模型,构建集成的短文本序列建模方式,提取数据中的全局特征。然后利用深度典型相关分析将局部与全局特征进行融合,得到第三视图融合特征表示。进而构建多视图超图模型,利用样本间多视图特征的高阶关联,完成短文本序列的分类任务。本文在五个基准数据集上对基于语义表示的短文本序列分类算法进行验证。实验结果表明,所提出的短文本表示方法,以及超图对样本间高阶关联的挖掘,可以有效提升分类准确率。在相同的数据集上,使用提出的多视图特征学习方法提取短文本序列中的全局特征和融合特征,并对多视图分类模型进行评估。结果表明,多视图特征有助于模型性能的提升。此外,本文对所提出的序列分类框架在航空发动机故障诊断中的应用进行了初探,并取得了较满意的结果。