基于注意力-拷贝机制的复杂文本摘要生成方法

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:cchmily2624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要是一种利用计算机从原始文本中提取出一段能够反映原始文本主旨的连贯短文的文本摘要方法.所提出的基于注意力机制与拷贝机制的编码-解码抽象式文本摘要模型,能够在把握整体语义的同时利用注意力机制生成关键信息和局部细节;并通过借鉴人工摘要的复制思想,引入拷贝机制,提高模型的实体识别能力;同时使用文本简化、批量归一化和计划采样对模型进行了强化.通过使用中国裁判文书网法律文书数据集进行验证,结果表明所提方法能够应用于复杂文本摘要生成,也初步探讨了文本摘要在法律自动判决上的应用.
其他文献
在运动目标检测众多算法中,ViBe算法是一种快速并且高效的运动目标检测算法,在视频监控领域得到广泛的应用。但是这种方法存在对鬼影的消除速度缓慢,容易形成拖影,而且容易发生漏检,易受到噪音的干扰。当物体运动状态变化缓慢时,原位移区域会留下残影等现象。论文针对以上问题提出了一种结合三帧差分算法的改进的ViBe算法,改进背景模型的初始化来对鬼影进行消除,并且加快鬼影的消除速度。采用自适应阈值来提高检测效
论文中结合无人机在电力巡检中的应用以及无人机巡线的方式,引入了理想巡检路径,提出了一种基于人工势场的无人机航迹规划避障的改进算法;根据电力巡检无人机的应用场景对势函数进行了调整,并且引入无人机在理想航迹投影点的引力场,当无人机陷入U型障碍物时调整无人机对障碍物感知的范围,使无人机摆脱U型障碍物.该改进算法不仅可以提高无人机巡线的效率,也可以解决部分局部极小问题.最后通过二维平面轨迹规划问题的数学仿真,验证了该方法的有效性.
论文基于UVM验证方法学,以及覆盖率驱动的芯片验证指导思想,搭建并分析了高度可重用的以太网控制器IP的验证平台.为了提高验证效率,论文对MAC的工作流程进行了研究,对其功能点进行了划分,针对性地编写了测试用例.在测试用例的驱动下,对MAC的数据收发功能进行了全流程的仿真验证.在大规模随机测试用例和定向测试用例的共同作用下,加快了验证所需要的时间,节省了仿真所需的计算机资源,达到了功能覆盖率100%的目标.
为了将词义信息和语义信息更好的与句子进行融合,论文提出一种基于词义增强和注意力机制的Twitter情感分析方法.通过对Twitter中的单词进行词义和语义信息的补充,增加词向量的维度来增强语义;把扩充后词向量表示的文本与情感强度进行配对输入到双向注意力机制的长短时记忆网络(BiLSTM)中.在Twitter数据集上进行普通情感分类、普通情感回归分析、基于Valence-Arousal的维度情感分析.实验结果表明,论文提出的基于词义增强和注意力机制的文本情感分析模型相比于其他模型具有更好的效果.
按照不同不平衡数据集在面对四类分类情况时侧重点的不同,构造出一种适用于不同特征不平衡数据的分类评价指标,并围绕此指标调整弱分类器权重及样本权重,改进集成算法中的AdaBoost算法,使其自适应不同特征的不平衡数据集分类.选择决策树算法作为基分类器算法进行仿真实验,发现使用AdaBoost算法和GBDT算法后准确率降幅较大,而改进的PFBoost算法能够在保证准确率的情况下显著提升F1值和G-mean值,且在绝大多数数据集上的F1值和G-mean值提升幅度远超其它两种集成算法.
针对常用方法无法准确度量多元时间序列相似程度的问题,提出一种基于多维分段和动态权重动态时间弯曲距离的多元时间序列相似性度量方法.首先对多元时间序列进行多维分段拟合,选取拟合段的斜率、均值和时间跨度作为每一段的特征,在对多元时间序列降维的同时也保留了变量之间的相关性;然后提出一种动态权重动态时间弯曲距离度量方法计算多元时间序列特征矩阵之间的距离,避免了直接使用动态时间弯曲距离造成的畸形匹配问题.最终实验结果也验证了该方法在多种类型的数据集上都能取得较高的度量精度,表明了该方法的有效性.
针对各导航软件快速给出私家车出行最佳路线却无法满足用户个人偏好的问题,论文基于2017年11月全国8186台私家车的出行轨迹,提出一种个性化路线推荐的优化方法.通过混合高斯模型拟合偏好分布,分析相关性找出与当前用户偏好和出行时间最为相近的轨迹,最后从中选择一条最符合用户需求的路线.与DAI方法相比,推荐路线匹配度高于80%的推荐轨迹高出了47%,推荐准确度也有了大幅度的提高,准确度对比平均值达到1.102.
中西医在线问询意图的自动识别是捕获患者核心需求、提高在线问询效率与质量的一个关键环节.提出结合句法结构的图编码分类模型SGM,第一步利用ddparser解析短文本的句法结构,抽取表达文本核心内容的主、谓、宾短语,得到句法依存关系图,进而采用双层图卷积神经网络编码得到128维的文本特征向量;第二步使用SVM、Bayes等分类器完成16597条患者问询意图分类.选取脱敏的中文在线问询数据集开展实验,结果表明SGM分类效果最佳,较直接进行机器学习模型分类的F1值可提高17.6%;较融合句法结构的神经网络(BiG
不平衡数据的分类问题在数据挖掘和机器学习领域中,一直是备受关注的问题.论文从数据预处理方面出发,提出一种基于谱聚类的欠采样方法,以此来降低数据的不平衡程度.先对多类样本进行谱聚类,根据每个聚类簇的密集程度,以及到少类样本的平均距离,来计算每个聚类簇的采样数目和选取怎样的多类样本,此欠采样方法可以有效去除多数类的冗余数据.实验结果证明,该算法可以有效提升少类样本的分类效果.
为解决工控网异常入侵、水利泵站通信网安全防护的问题.论文提出一种基于深度神经网络的水利泵站工控网入侵数据的检测算法.首先针对泵站工控网内的数据进行预处理,通过自编码算法对数据进行特征提取、降维处理;利用深度神经网络模型结合受限玻尔兹曼机对各类数据进行训练,采用Adadelta算法进行网络模型的参数优化,并由Softmax分类器对工控网数据进行是否合法判别.实验数据集由底层设备实地采集到的水利泵站工控网内流动数据导入到本地数据库.实验结果表明:该方法的准确率对比深度神经网络未改进前的算法提高了3.76%,检