文本语义的向量表示与建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：yr

【摘要】

：

文本的向量表示是指从文本中挖掘和学习其中蕴含的语义信息,并将其表示为具体的实数值向量,以便计算机进一步处理后续自然语言处理任务。最简单常用的文本表示方法为词袋子模

【作者】

：

陈培新

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2018年期

【关键词】

：

文本表示神经网络语义匹配文档分类文档聚类共识分析伪监督

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本的向量表示是指从文本中挖掘和学习其中蕴含的语义信息,并将其表示为具体的实数值向量,以便计算机进一步处理后续自然语言处理任务。最简单常用的文本表示方法为词袋子模型(Bag-of-Words,BOW),这种简单的表示方式虽然有效利用了词频信息,但是丢失了词序信息,忽略了词与词之间的主题关联性,且存在维度过高和数据稀疏的问题。近年来,研究者提出了词向量(Word Embeddings)学习方法,它可以从大量无标注的数据中学习词的语义信息,并将词表示为低维、稠密的连续值向量,且语义相近的词在向量空间中的距离也更接近。词向量技术为基于神经网络的文本表示学习提供了基础,通过神经网络组合句子或文档中的词向量,可以得到更深层的文本语义表示,从而更好地处理文本分类、文本聚类、情感分析、句子语义匹配、自动问答等具体任务。本文针对句子语义匹配、文档主题分类和文档主题聚类三个具体任务,对句子和文档的语义向量表示与建模进行了研究。在句子语义匹配中,一般通过神经网络将两个句子的语义表示为向量,然后比较它们之间的语义关系。在主流的句子匹配模型中,一般通过长短期记忆网络(Long Short-Term Memory,LSTM)对句子进行语义编码。LSTM虽然有很强的时序建模能力,但循环结构的串行计算方式也限制了模型的计算效率。鉴于卷积神经网络(Convolutional Neural Network,CNN)的并行计算特性,本文采用CNN对句子进行语义建模。为了提高CNN对信息的选择和控制能力,我们借鉴LSTM的门控机制思想,在CNN中同时引入输出门(Output Gate)、遗忘门(Forget Gate)和记忆细胞(Memory Cell)。记忆细胞用来存储前几层得到的上下文信息,并在每一层通过遗忘门对记忆细胞进行更新;同时,输出门用来对当前层得到的候选输出值进行调节。实验和分析表明,门控调节机制有效增强了 CNN的语义建模能力。在文档主题分类中,经典的概率主题模型是常用的文本建模方法,它通过词与词的共现信息将文本映射到低维的潜在主题语义空间。近年来,基于神经网络模型的文本分类逐渐成为主流,并取得了显著的效果。鉴于有监督神经网络显著的区分性学习能力,本文利用神经网络提取文档的深层语义特征向量。在此基础上,本文将不同神经网络学习的语义信息或神经网络语义信息和主题模型的潜在主题信息相结合,然后利用支持向量机(Support Vector Machine,SVM)进行主题分类。实验表明,不同的语义信息具有互补性,它们的融合能有效提升主题分类系统的准确性和鲁棒性。文档聚类属于无监督学习任务,通常的文本聚类方法是先利用无监督文本表示模型得到文档的语义向量,再利用聚类算法对文档进行归类。相比于无监督模型,有监督模型可以生成更具主题区分性的特征。鉴于此,本文提出了基于共识分析的伪监督语义向量学习方法。该方法利用预聚类生成的簇标签作为样本的伪标签,引导有监督神经网络的学习。为了提高伪标签的精确度,本文对两组预聚类结果进行共识分析,选择共识样本作为神经网络的训练样本。最终,利用神经网络提取文档的语义向量。实验和分析表明,这种基于共识分析的伪监督语义向量具有更强的主题区分性,可以显著地提升文档主题聚类效果。

其他文献

表征聚合物共混状态的超声特征信号处理技术研究

螺杆挤出机的聚合物共混,是复合材料加工和生产常用的方法。聚合物中加入无机粒子或有机物质等填充料后,可使材料的冲击强度、拉伸强度、硬度等性能有极大改善,用途更为广泛

学位

聚合物超声监测模式匹配螺杆模型

无源毫米波探测成像系统目标检测与识别方法

无源毫米波安检探测系统通过被动接收物体辐射出的毫米波成像。不同的物体其辐射特性各不相同,探测系统对各类物体成像的结果也存在差异。由于无源毫米波成像探测系统本身不

学位

无源毫米波成像特征提取与描述高斯混合模型特征袋模型目标检测与识别

异步DS-CDMA系统的盲多用户检测算法研究

DS-CDMA通信系统已经在军事和民用通信中得到了广泛应用,特别是在某些特定环境下,随机接入、组网方便的异步DS-CDMA系统更加适用。然而异步DS-CDMA中各用户接入的不同步性会

学位

异步DS-CDMA多用户检测远近效应多址干扰

基于协方差矩阵和导向矢量不确定性的鲁棒波束形成技术

自适应波束形成技术是阵列信号处理中一个重要的研究方向,其在通信、雷达、声呐、语音处理、医学成像等领域,都有着广阔的应用前景。传统的波束形成方法旨在保持期望信号一定

学位

鲁棒自适应波束形成可变对角加载不确定性集KKT优化条件

基于海量数据挖掘的居民用电行为分析与互动方法研究

随着智能电网数据采集系统不断建设和发展,越来越多的智能仪表被装入电力网络,用以获取电网和用户的实时数据。这些实时数据具有数据量大、采集频率高等特点,而且数据间关联性较强。在售电侧改革情景下,这些海量数据的潜在价值逐渐被挖掘与应用。本文以智能电网中用户用电行为的特征提取与用户聚类方法、“网-荷”互动模式为两大研究点。首先介绍了智能电网用户用电行为分析理论框架以及应用场景,重点分析了提取动态马尔科夫模

学位

用电行为特征提取分层聚类互动模式数据挖掘

JPEG图像失配隐密分析研究

随着网络通信技术的发展,以隐蔽通信为目的的隐密术受到了社会的广泛关注。隐密术是指将秘密信息嵌入到载体数据的冗余位置,利用公开信道以不被察觉的方式进行秘密通信的技术

学位

失配隐密分析迁移学习融合训练局部领域泛化转移成分分析

通信网络的业务规划及保护关键技术研究

在近几年中,随着云计算技术和移动终端服务的快速发展,通信网络承载的业务流量迅速增多,通信网络在人们日常的生活工作中扮演的角色越来越重要,用户也对通信网络的承载能力、

学位

路由规划与保护IP网络的快速重路由最大冗余树与无环保护路的结合SLICE网络路由与频谱分配算法

混合SDN环境中路由关键技术研究

网络作为至关重要的基础资源,随着需求和规模的急速扩张,一方面促进了网络技术研究人员对于新体系、新技术的研究,另一方面由于现有网络结构日趋复杂以及网络设备相对封闭,使

学位

软件定义网络路由路径管理负载均衡OpenFlowFloodlight

各向异性序贯高斯随机模拟研究

随机模拟技术是地质统计学的新发展,在储层建模中由于地质环境的复杂性及观测数据的间接性和微量性,为储层建立的模型存在很高的不确定性。随机模拟是为储层建立随机模型并产

学位

储层建模序贯高斯模拟各向异性自适应退火

基于JPEG2000的感兴趣区域编码的研究与实现

伴随网络与多媒体技术的日益发展,可实现高压缩比例同时又能满足用户不同需求的图像压缩技术愈显出其重要性。感兴趣区域编码技术是指针对人们的喜好,将图像划分为背景区域(B

学位

JPEG2000感兴趣区域人脸检测小波变换分辨率等级

文本语义的向量表示与建模方法研究

其他学术论文