基于改进句向量生成算法的文本相似度研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:hsxy8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和人工智能技术的革新,大量的文本信息出现,如何生成优质的句向量,对文本相似度进行衡量成了当前研究的热点和难点之一。文本相似度在文本分类、信息检索和文本去重等领域具有重要的应用,比如各大手机厂商争先推出的智能语音助手。传统的文本相似度研究主要基于编辑距离和Jaccard相似度,只能揭示文本在字面上的相似性。在利用余弦相似度衡量文本相似度的研究中,如何生成优质的句向量是关键。当前关于句向量的研究较少,尤其是中文句向量。大多数研究都集中在利用传统的向量空间模型生成句向量,或者是引入外部词典信息生成句向量,比如人为地给词性添加一定的权重。这些只是对词向量的简单平均,并没有从更深的层次上挖掘句子中存在的语义信息。为了更好地利用余弦相似度衡量文本之间的相似度,本文主要研究了如何利用无监督学习算法,生成优质的中文句向量。首先,分析了分词对生成句向量的算法性能的影响,得到了在深度学习框架下,字级别的模型优于词级别的模型的结论。然后,在基于词向量的加权平均算法中引入了字向量,从字和词两个角度生成句向量。同时在基于上下文生成句向量的Quick-Thought Vectors算法中,引入Transformer模型,有效地弥补了原算法中缺少的长文本中蕴含的语义信息。最后,在获取的小爱的真实数据集上进行实证分析,利用F1值和算法运行效率作为评价指标,对改进前后的句向量生成算法进行对比分析,可以得到:基于字向量和词向量的加权平均算法的F1值达到了86.5%,远超其它仅基于字或者词的加权平均算法;在未分词的情况下,融合Transformer的Quick-Thought Vectors算法的F1值达到了86.6%,与改进前的算法相比得到了一定的提升。二者性能相差不大,但是融合Transformer的Quick-Thought Vectors算法采用了深度学习网络结构,算法运行时间较长。进一步探究后,本文还发现了基于字向量和词向量的加权平均算法侧重于短句和重合度较高的句子,融合Transformer的Quick-Thought Vectors算法侧重于长句和重合度较低的句子。
其他文献
数控机床是现代制造业中重要的生产设备,一旦发生故障可能导致零件报废、生产停滞,造成企业的经济损失。随着物联网、大数据等先进技术的飞速发展,实现机床远程故障诊断已成为可能。本文以数控机床为对象,研究和开发了基于物联网的数控机床远程故障诊断系统。主要内容如下:(1)在分析机床故障远程诊断系统功能目标及性能目标的基础上,设计其功能模块和逻辑结构,描述各模块和各层的工作内容和工作流程,提出基于NB-IoT
电力行业是关系我国国民经济与社会发展的重要基础性行业,电力设备及其招标采购则是电力行业的重要组成部分。我国电力行业自实行招投标交易制度以来,随着相关法规制度的不断完善与电力市场化改革的加速实施,电力行业当前迎来了快速发展的黄金时期。电网公司作为我国电力系统运营管理的主体,当前已全面采用招投标制度来进行电力设备等相关物资的采购交易,提高了项目效益及投资经济性,同时也加剧了电力设备行业间的竞争,一定程
卷积神经网络在计算机视觉领域的许多任务中取得了巨大的成功,如图像分类、目标检测分割、人脸识别、视频分析等。然而,一些研究表明,深度神经网络很容易受到对抗样本的攻击。对抗样本,即在输入数据中通过故意添加细微的干扰所形成的输入样本,导致模型以较大的置信度给出错误的输出。对抗样本的存在对人工智能安全造成了极大的威胁,这些威胁可能导致人工智能所驱动的识别系统发生混乱,形成漏判误判,甚至导致系统崩溃或被劫持
传统的融资模式主要是以现有资产或资金来进行融资,而资产证券化是以基础资产未来的预期收益产生的现金流为偿付支持的融资形式。从宏观角度来看,资产证券化不仅拓宽了金融市场的融资方式,而且能有效的促进产业升级;从微观角度来看,鉴于金融市场固有的风险性,资产证券化对于降低企业的投融资风险是一种行之有效的方法。与此同时,资产证券化使企业的投融资的渠道更为广泛,也能相应的降低投融资成本。基于此,本文结合了资产证
在云数据中心中,用户提交的任务往往需要对指定的数据进行分析和处理,因此大规模的数据处理问题变得越来越常见。为了提高这类数据密集型任务的运行效率,我们希望最小化任务的执行时间,因此合适的任务调度机制显得十分重要。同时,传统的只调度单一类型任务的调度策略已经不再能满足用户的需求,需要考虑如何同时调度混合任务。由于任务的执行需要依赖指定的输入数据,因此调度任务的决策是受数据驱动的。本文从数据的存储部署和
随着安全关键软件的规模和复杂性不断增长,确保软件设计和功能的正确性变得更加困难。模型驱动开发方法已经成为了安全关键软件设计与开发的主要手段,而AADL(Architecture Analysis and Design Language)作为复杂嵌入式系统的体系结构与分析标准语言,广泛应用于安全关键软件的软/硬件体系结构、运行时环境、功能和非功能属性的建模。AADL语言能够比较自然的将复杂安全关键软
空间站舱内设备众多,为最大利用空间,在设备与舱体间形成很多狭小的空间。由于人体呼吸等因素,可能导致舱壁结合处结露或者霉变。因此发展舱内狭小空间可达的检修机器人具有特别重要的作用。在轨机器人面临的最大难题是机器人与舱体间的可靠接触吸附机制,基于仿壁虎干黏附机制的仿生机器人是目前已知最佳的解决方案。而基于干黏附的仿生机器人黏附的预压力和脱附力会对机器人的稳定附着产生很大影响。特别是干黏附带来的脱附冲击
无线传感器网络通常被部署在无人值守的环境中,用于监测指定区域内的重要资产。用户通过基站提交查询请求,网络中的感知节点在检测到目标资产后会将其相关信息收集并返回到基站。由于无线通信的广播特性,通信的上下文信息处于暴露状态。基于这些上下文信息,攻击者可以推断出网络中数据源、基站等关键节点的位置信息,导致监控区域资产的安全受到威胁,甚至影响整个网络的安全稳定运行。因此研究基于上下文信息的节点位置隐私保护
目前,能源互联网的产生与发展是能源行业发展和变革的方向之一,能源互联网的核心内容是电力系统,我国近年来也将需求侧管理作为电力系统重点改革与发展方向。园区能源互联网中的电力交易问题中,如何实现园区运营商与用户的双赢,成为了重要的课题。本文以包含分布式光伏、冷热电三联供、风电、储能、电动汽车等园区能源互联网为研究对象,首先描述所需研究的问题,明确园区能源互联网架构。其次,通过考虑价格型需求响应和激励型
随着经济体制改革的不断深化,以及征纳税关系日益成为政府与纳税人之间最基本的经济关系,税收征管中纷繁复杂的税务行政执法案件持续增加,以税收法定为原则,按照法治精神推进现代税法体系的建设显得十分必要和迫切。从税收实践层面来看,日常税收行政执法中,税务机关往往面临大量需行使税收行政执法自由裁量权的案件,且因为法律本身的完备性、科学性,以及税务机关自身的素质等问题,相当场合的税收自由裁量权较难以做到合理、