基于图嵌入模型的复杂文本关键词挖掘方法

来源 :福建工程学院 | 被引量 : 0次 | 上传用户:wjief
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国电力工业信息化工程的建设过程中积累了大量的文本数据,作为电力大数据的重要组成部分,电力文本数据中所蕴藏的巨大价值也越来越被业界所认可,成为电力行业大数据挖掘方向的重要研究对象。本文旨在利用关键词提取技术,分别从涉及多领域的新闻报道数据集和电力行业相关的学术论文数据集中抽取出可体现文章主题信息的关键词。本文提出一种电气工程领域专业词汇识别方法用以提升该领域学术论文数据集的中文分词效果,同时,还提出三种图模型关键词提取算法,除了分析它们在不同数据集上的关键词提取效果外,还将它们应用在文本分类任务中,主要研究工作可概括如下:(1)电气工程领域专业词汇识别算法。针对Jieba分词工具无法有效识别电气工程领域专业词汇进而导致分词结果不够准确的问题,本文融合三种词间关系特征,提出一种专业领域词汇识别算法。将专业词汇识别结果导入Jieba分词库中,实验结果表明,此算法能够改善分词效果,为后续关键词提取工作奠定良好基础。(2)基于多特征融合的TextRank关键词挖掘算法。利用TextRank算法扩展性强的优点,本文融合词语TFIDF特征、位置特征以及词网络图结构特征,提出一种改进的TextRank算法即MFFTR算法。实验结果表明,此算法能够较好地识别文本中的关键词,在准确率、召回率和F1值上与现有的6种关键词提取算法相比均具有一定优势,此外,相较于经典TextRank算法,MFFTR算法在三种实验数据集上对F1值分别可提升2.7%,0.8%,3.2%。(3)基于词图多边形结构的图嵌入关键词挖掘方法。本文融合词语TFIDF特征和词语位置特征作为词节点初始权重丰富了词图信息,同时利用词网络图的三角形结构和四边形结构进行词节点排序,在此基础上分别提出了KTSG算法和KQSG算法。实验表明,KTSG算法和KQSG算法与现有的6种关键词提取算法相比,在多项关键词提取评价指标上均有提升,尤其在命中率指标上,KTSG算法可提升0.1%至8.1%,KQSG算法可提升0.5%至8.2%。(4)图嵌入关键词挖掘模型集成学习。为了验证MFFTR算法、KTSG算法、KQSG算法的有效性,将它们应用在文本分类任务中。在构建文本向量空间的过程中,将它们与现有的9种词汇特征提取方法融合,提出一种多特征融合的文本特征集成学习方法。在3种经典分类器上同传统特征提取方法作比较,实验结果表明,本文方法可以使文本分类效果获得一定提升。
其他文献
随着城市化由追求速度到高质量发展转变,我国城市公共交通发展潜力巨大,以轨道交通为代表的现代交通方式正在改变城市空间经济格局和人们的生活方式。同时人们对城市轨道交通的需求和期望也在不断深化,对城市轨道交通服务水平也提出了更多、更高的要求,快速增长的通线网规模,不断攀升的日均客运量,使运营管理难度及维护工作压力也急骤增大,而目前具有很高公益属性的城市轨道交通项目,大部分需要依靠政府补贴才能实现持续运营
随着能源与环境问题的日益严重,新能源汽车作为一种低碳出行的交通工具,受到各国的高度重视。相比于燃油车,电动汽车能量转化效率提升了两倍多,但同时电动汽车的安全性问题也备受关注。及时准确地对电动汽车电池的异常状态进行故障诊断与预测,对电动汽车的安全行驶至关重要。本文以电动汽车实际行车数据为对象,针对电动汽车动力电池的单体一致性问题以及健康状态展开重点的分析研究,主要的研究成果及内容如下:(1)基于电动
激光熔覆是通过高能激光将增强项粉末熔化与基材形成冶金结合的增材制造技术。在激光熔覆过程中存在熔池的生长、激光与粉末相互作用、粉末流-熔池相互作用,这三个部分中包含:马兰戈尼流动、金属凝固熔化、传热传质以及熔池内液态金属对流等复杂的物理现象。因此建立熔池模拟、粉末流模拟以及粉末流-熔池模拟,并对其相互作用进行研究分析。建立熔池数值模型,研究熔池生长过程中热历史与熔池流动变化;通过改变激光功率与扫描速
新型不锈钢管混凝土是一种在当今建筑结构高性能化的背景下发展起来的新型组合结构形式。这一新型组合结构在具备了复合普通钢管混凝土结构的安全性、耐久性、和谐性以及良好的施工性等优点的基础上,同时满足了美观、耐久以及耐腐蚀等的要求。本文对新型不锈钢管混凝土柱的抗震性能展开了研究,从试验和理论两个方面研究了新型不锈钢管混凝土柱在斜向低周往复荷载作用下以及双向压弯作用下的力学性能和工作机理,进行的工作主要包括
铝铜合金具有高强度、轻质、良好的延展性和可焊性等优良性能,被大量运用于航空航天、和汽车制造等行业。但是,因其晶界腐蚀抗力不足,铝铜合金的运用受到一定限制。传统的晶界工程研究指出,引入大量共格孪晶界(即奇异晶界)可以有效提高中低层错能面心立方金属的晶界腐蚀抗力。然而,铝铜合金是高层错能面心立方金属,生成奇异晶界的能力很弱。相关前期的研究结果表明,在同为高层错能面心立方结构的高纯铝中,具有{1 1 1
在我国南方地区污水厂碳源总量偏低的情况下,采用全流程生物系统改造的方式对总氮和总磷削减的空间有限,难以达到日益严格的氮磷排放指标。城镇污水的提标改造需要研究更先进的处理工艺,以对氮磷进行深度治理。本课题针对活性污泥处理系统提升脱氮除磷的空间有限,现有城镇污水厂尾水的处理方法缺乏将脱氮、去除SS和除磷融于一体的技术现状,提出了新型生物膜-微絮凝滤池协同脱氮除磷的新工艺。通过实验获得了新型生物膜-微絮
汽车车窗金属亮饰条是冲压成形制品,通常采用不锈钢、铝合金等材料。亮饰条的几何外形包含有多个自由曲面,冲压回弹控制是成形制造的核心。本文以SUS430不锈钢薄板材料为研究对象,以冲压回弹控制为目标,深入研究SUS430不锈钢薄板材料的屈服准则和硬化模型的求解和选择、成形工艺参数确定、成形回弹的预测控制等关键问题。具体研究如下:(1)构建SUS430不锈钢薄板材料屈服准则与硬化模型。采用数字图像相关法
PID(Proportional–Integral–Derivative)控制器是现代工程控制中最具代表性的控制方式,以其简易模型、高可靠性而经久不衰。但是随着时代的发展,工业控制的对象复杂性日益增长,控制精度的要求与日俱增,尤其是以火电厂、化工厂、炼钢厂等工业中温度控制为代表的具有大滞后、非线性的控制对象。传统的PID控制已经不能满足控制的需要。本文提出基于一种交流策略的并行QUATRE(QUa
近场地震动通常是指断层距为20km以内的地震,因其复杂的特性,使得其震源机制与远场地震截然不同,因此结构在其作用下破坏更加严重。本文从PEER(美国太平洋地震研究中心)选取远场地震动作为底波,采用MATLAB软件进行人工模拟脉冲型近场地震动,通过Midas civil 2015建立10跨32m双线预应力高速铁路简支梁桥模型,并以课题组研发的TTBSAS计算程序实现列车-轨道-桥梁耦合振动分析,探究
本研究旨在探讨加劲肋加固钢板在不同冲击载荷下的动力响应及破坏模式。钢板结构由于其强度高、性能好,在工业和各种基础设施中得到了广泛的应用。但同时,钢板结构在其使用期间可能受到碰撞冲击、爆炸等意外荷载的作用。冲击荷载作用下引起钢板结构损伤破坏。因此,研究钢板在冲击载荷作用下的动力响应和损伤破坏尤为重要。为此,采用有限元分析软件ABAQUS,建立了加劲和不加劲钢板模型。研究冲击荷载作用下钢板的动力响应和