基于LSTM-DSSM的论文查重系统研究与实现

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:Pleasehelp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展使得人们可以通过粘贴复制,径直将网上他人的知识成果放在自己的论文里,无意间形成侵权、学术造假等事件。而学术论文不断反复套用、盗用,严重的影响了整个学术界的氛围,低水准论文满天飞。要想从根本上杜绝类似事件的发生,就要通过增强对论文的重复率度量来监督,当前国内外对文本的查重成为新的研究热点。实行版权保护时,一个高效的方法是对文档之间的相似程度进行度量。文本相似度研究在判定文章原创方面有着普遍运用,而度量后最终得到的相似程度和在计算时使用的方法紧密相关,方法不同导致最后结果可能有很大的差别。针对目前中文文本相似度计算上存在严重的语义缺失以及长文本依赖问题,提出一种基于深度语义的匹配模型——LSTM-DSSM模型,应用于在线论文查重系统,从而使查重的结果更加准确。本文对文本相似度计算常用的DSSM(Deep Structured Semantic Model)模型进行改进。首先针对中文中普遍存在的一词多义的难题,引入基于字向量的BERT模型作为基线构建词向量,并且为了解决其语义表示不准确的问题,提出一种中文英文相结合的输入方式来进行模型训练,从而增强对于文本中词向量的构建的准确性。其次,在模型的表示层使用LSTM模型来解决中文文本处理中常见的丧失上下文信息以及长文本依赖问题。最后,经过输入层以及表示层处理后得到文本语义特征,使用DSSM模型的原始匹配层来进行文本内容的相似度计算,利用余弦函数计算相关系数,得到两个语句的相似程度,进而判断文档的重复率。基于以上LSTM-DSSM模型开发了一个论文查重系统,通过调查研究用户在线查重的需求和习惯,对系统进行详细需求分析后,对系统的管理员和用户功能模块进行划分,然后分别完成系统所有功能模块的详细设计和系统数据库设计,最后实现论文查重系统,并将上述文本相似度计算模型融入论文重复性检测模块。在该系统中,用户使用真实信息注册登录后,可以进行提交论文检测、查看下载检测报告、自建库、发布查看留言等操作;管理员使用管理员权限登录该系统后可以进行管理用户信息、管理留言、提交论文检测、查看下载检测报告、自建库管理、发布查看留言等操作,总体功能能够满足用户论文查重系统的总体需要。同时还选取了三个文本相似性计算模型与本文模型进行对比实验,实验结果显示,本文所给相似性计算模型相较主流相似性计算模型在准确率和消耗时间等指标上均有所改善,具有一定理论和现实意义。
其他文献
报纸
元学习方法提出的初衷是为了解决标签样本量不足的问题,通过提前训练模型的初始化参数来加快模型的收敛速度。后续模型无关元学习(MAML)的出现更是显著提升了元学习思想的应用范围。一般以梯度下降法进行算法求解的模型都可以通过它来解决few-shot learning(小样本分析)问题。当前,元学习方法多应用于图片和自然语言处理场景,而化学材料数据分析也具有少样本、多任务的训练特性,属于较典型的小样本分析
事件抽取框架是构建一些特定领域知识图谱的关键必备内容,尤其是金融、医疗等新兴领域,这些领域对知识的需求量大、数据的时效性要求较高。事件抽取框架的目的是将发生的事件信息从文本中提取出来,形成包含事件信息的知识,为之后的知识图谱应用提供支持。传统的事件抽取框架中除了事件抽取方法,还会包含数据收集和数据标注部分,这些附加模块往往通过一些规则性方法来生成事件信息的标注。本文以众包的方式,使用人工标注平台,
理想的群集智能算法(Swarm Intelligence,SI)能够快速找到优化问题的一个可行解,其目的是尽快取得全局最优解,而非陷入局部最优。然而现有的群集智能算法往往存在收敛速度慢和易陷入局部最优的问题。羊群算法(Sheep Optimization,SO)是一种模拟羊群行为的新型群集智能算法,它根据群集智能算法的三种策略:全局探索、局部开发和跳出局部优化,分别通过模拟羊群的三类行为:头羊引领
自1960年代以来,基于TCP/IP协议的互联网在现代社会中发挥着越来越重要的作用,TCP/IP网络架构是一个以主机为中心的模型,该模型是根据早期互联网应用模式而开发的,例如提供连接性和共享资源。但是,随着计算机技术和网络应用的飞速发展,网络传输模式也从资源共享转变为内容分发与获取,人们关注的重点从“从何处获取内容”转变为“获取什么内容”。而最初为端到端通信设计的TCP/IP网络难以适应这种变化,
车辆驾驶过程中能否与障碍物发生碰撞直接关系到车辆的安全驾驶。由于采集的图像因外界干扰会出现图像失真,导致障碍物高度及车辆与障碍物间距的判断失误,最终发生车辆与障碍物的碰撞。因此,滤除图像中的混合噪声,更准确的判断安全行驶距离,预防碰撞事故的发生,对于汽车的安全驾驶有着重要的意义。本文针对当前采集图像中存在的缺陷设计并实现了一种基于高斯椒盐图像去噪的障碍物碰撞预警系统,为辅助驾驶人员的安全驾驶提供了
随着深度传感器与深度学习网络的发展,基于骨架数据的人体动作识别成为近年来计算机视觉领域的热门问题之一。通过传感器获得的骨架数据可以表示人体关节动态信息以适应带有噪声的复杂背景。应用图卷积网络描述人体骨架实现人体动作识别可以取得很好的识别效果,但实现过程中仍存在一些问题,如图的拓扑结构固定、会遗漏非物理连接的关节相关性、无法提取局部时空特征等。首先,参考近年来基于骨架数据与图卷积网络的人体动作识别的
现阶段,工业控制系统(Industrial Control Systems,ICSs)已经广泛应用于国家生产和发展的各个关键领域和行业。然而,随着工业化和信息化的高度融合,工业控制系统面临愈来愈多具有时间持续性、手段综合性和目标特定性的定向攻击和高级可持续性攻击(Advanced Persistent Threat,APT),并且传统的IT信息安全技术并不能很好的适用于工业控制系统。因此,基于工业
在大数据时代,数据的增长带动了信息领域的高速发展,各个领域的推荐系统在人们的日常生活中起到了更为明显的作用,能够帮助人们进行信息的筛选,提高了产品的使用体验,帮助了人们获得更好的生活。教育领域同样如此,各种在线学习网站先后流行,但与推荐引擎的结合程度还相对较低,远低于电商和娱乐领域,在数量和质量上,均有明显的进步空间。本文认真研究了相关教育学理论,充分研究了国际国内在线学习领域和个性化推荐领域的现
随着学习资源的爆炸性增长,如何在海量的数据里找到学习资源成为了一个急需解决的问题。个性化知识资源推荐是一种有效的解决办法,其本质是通过推荐算法捕捉到用户的偏好,给用户推荐潜在知识资源。据此本文提出了基于混合推荐算法的个性化知识点推荐系统研究与实现。首先本研究对推荐算法进行了深入的研究分析,将推荐算法分为传统的推荐算法和基于各类智能算法的新型推荐算法。并对这两类推荐算法下的各类具体算法进行分析,明确