基于语义表示的多视图短文本序列分类研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:aaavvv001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列数据作为常见的数据类型,既拥有相邻子序列间的局部特征,又包含整体序列的全局特征。短文本可以被看成是由词组成的特殊序列,现有的短文本序列表示方法忽视了词间强语义组合的存在,造成显著特征的丢失,并且现有短文本分类方法忽视了数据间的高阶语义关联。此外,现有的分类方法仅基于短文本序列中的局部或全局特征,单一视图难以全面描述数据固有的特征。本文将针对上述问题展开研究工作。本文以短文本序列的有效表示为出发点,提出了基于语义表示的短文本序列分类算法,利用短文本间的高阶语义关联进行分类决策。算法首先采用改进的密度聚类算法对预训练的词向量进行聚类,然后利用聚类结果挖掘文本序列中潜在的语义单元,将原始文本表示成语义单元序列,完成短文本序列的语义表示。随后使用卷积神经网络学习序列中的局部高阶特征表示,并以此构建超图模型,利用样本间的高阶语义关联,实现短文本序列的分类。为了学习短文本序列中更全面的特征表示,进一步提高分类模型的可靠性,本文提出了短文本序列的多视图特征学习算法。该算法利用两种深度计算模型,构建集成的短文本序列建模方式,提取数据中的全局特征。然后利用深度典型相关分析将局部与全局特征进行融合,得到第三视图融合特征表示。进而构建多视图超图模型,利用样本间多视图特征的高阶关联,完成短文本序列的分类任务。本文在五个基准数据集上对基于语义表示的短文本序列分类算法进行验证。实验结果表明,所提出的短文本表示方法,以及超图对样本间高阶关联的挖掘,可以有效提升分类准确率。在相同的数据集上,使用提出的多视图特征学习方法提取短文本序列中的全局特征和融合特征,并对多视图分类模型进行评估。结果表明,多视图特征有助于模型性能的提升。此外,本文对所提出的序列分类框架在航空发动机故障诊断中的应用进行了初探,并取得了较满意的结果。
其他文献
纳滤是一种先进的膜分离技术,广泛应用于废水处理、水质软化、医药方面和食品加工等多个领域。而纳滤膜可以通过界面聚合法来制作。界面聚合法因其便捷有效等特点已成为目前
目的:血管紧张素Ⅱ(Angiotensin Ⅱ,Ang Ⅱ)在心脏肥大的过程中具有促进心脏重构的作用。肌球蛋白轻链激酶(myosin light chain kinase,MLCK)是肌球蛋白调节性轻链磷酸化的特
梯棱羊肚菌(Morchella importuna)是一种具有重要经济价值的食药用真菌。一方面羊肚菌有诸多基础遗传学问题尚未被揭示,亟需一种有效的遗传技术手段来研究相关基因的功能。另一方面,作为一种需要覆土栽培的食用菌,梯棱羊肚菌与土壤间营养元素包括微量元素的交换尚不清楚。土壤污染问题,尤其是重金属镉的污染严重影响着生态环境、食品安全和人类健康,随着梯棱羊肚菌大田栽培面积的不断扩大,重金属镉污染的
慢性乙型肝炎(CHB)患者出现HBeAg血清学转换、HBV DNA水平下降及肝功能改善,一般认为病情趋于稳定。
通过阐述文学地理研究中有关地域文化的认识问题,指出对于地域文化的了解,受到文化变迁、社会总体知识水平和个人经历经验的制约,在此基础上,又以唐五代时期岭南的诗歌为例,
以河南产储藏3 a的商用小麦为材料,按不同虫种分组,采用Ellman's试剂比色法检测不同感染时间小麦面筋蛋白的—SH和—S—S—含量,利用傅里叶变换红外光谱(FTIR)测定小麦面筋蛋白
政治发展不能离开特定的文化背景与社会基础.村落文化作为社会文化背景和基础性资源,对当前的农村政治发展有着积极的和消极的双重影响.消除臣民文化、培育公民文化,改造小农