基于异构信息网络的互联网新闻事件发现算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:tu139201103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G时代的到来,网络成为了人们获取外来资讯的重要途径。人们在享受快捷信息服务的同时也面临着繁杂的网络信息带来的“选择难”问题。事件发现与跟踪技术能够帮助我们在海量的新闻信息中快速精准的识别最新事件、寻找感兴趣的话题与跟踪事件发展动态。该技术有利于企业和政府把握舆情走向,对社会和谐发展有重要作用。本课题从实际应用角度出发,以人民网和新华网上的新闻报道文本为主要研究对象,深入研究了基于Scrapy的数据获取技术、文本数据的向量化表示算法、以及异构信息网络(HIN)和Transformer机制相结合的新闻事件发现方法。能够快速预测最新报道的话题类别并发现相关事件,方便用户快速获取目标信息。首先,针对全网抓取中存在的耗时长、重复率高问题,本文设计了一款增量式的网络爬虫器,用于获取人民网和新华网数据,能够定时抓取这两个网站上的相关新闻信息,并根据地址链接进行自动去重,大大降低了采集过程中的重复性工作。其次,针对传统词频-逆文档概率算法(TF-IDF)中存在的不同关键词出现次数相同所对应的TFIDF值也可能相同问题,本文提出了一种改进后的算法A-TFIDF,通过给相同的TFIDF值加上不同的极小值,使其能够保证在不损失关键词重要性的同时保证值的唯一性。再次,针对新闻文本篇幅长短不同造成的文本向量表示难和传统的基于词频的事件发现准确率低问题,本文提出一种将Transformer机制和异构信息网络相结合的事件发现框架TRHIN_Framework。将针对语言翻译的Transformer应用在话题预测方面。该框架首先确定新报道的话题类别,接下来利用话题词得到相关事件群并建立异构信息网络,然后通过图注意力网络(GAT)抽取高维特征,最后采用DBSCAN聚类的方式得到最终事件簇。最后,在人民网和新华网数据集上开展实验。通过进行对比实验,展示了该框架在话题预测的正确性和事件发现与追踪方面的有效性。
其他文献
青砂器是一种具有地域特色的粗砂器产品,其制作工艺已被列入“河北省省级非物质文化遗产名录”。但随着社会的发展,青砂器造型形式日渐显得陈旧,其审美性已很难满足市场的多样化需求,导致其产量越来越少,甚至面临着失传的境遇。本课题将形状混合技术引入到青砂器的造型设计中,对青砂器的造型展开研究。本课题以形状混合技术为基础,结合用户调研、主成分分析、聚类分析、语义差量表、分型图谱量化、语义相似度计算、TOPSI
为了改善MgH2的吸放氢性能,本文以2-甲基萘碳化产物和金属氧化物为添加剂,分别通过烧结法和氢化球磨法制备了三种储氢复合材料并研究了其储氢性能,分析了不同添加剂对MgH2吸放氢性能的作用机制。通过2-甲基萘和纯镁共同烧结制备了镁-2-甲基萘碳化产物复合材料。通过表征可知,制备的镁-2-甲基萘碳化产物中均匀分布着不定形的碳化产物。吸放氢性能测试表明,在423 K下,镁-2-甲基萘碳化产物能够吸收4.
单晶金刚石作为自然界中最硬的材料,同时具有高热导率、高载流子迁移率、高击穿电场和低介电常数等特点,因此被广泛应用于微切削刀具和微电子机械系统元器件等关键领域。但是,由于单晶金刚石硬度高、各向异性,且微结构化器件尺寸小、形状复杂,传统的机械类加工方法面临着磨损率高、加工应力大、自由度少等问题。本文采用更加灵活的无接触式飞秒激光作为加工手段,进行了针对单晶金刚石多种微结构的加工机理及工艺研究,以解决微
白酒检测是对白酒进行深层次研究的必备手段,对控制白酒质量、指导生产、维持白酒市场稳定等有着积极作用。该文总结了色谱技术、光谱技术、核磁共振技术以及仿生传感器技术在白酒检测中应用现状及研究成果,分别阐述了不同检测技术在品牌、产地、酒龄鉴别、品质监控,真伪鉴别以及风味物质测定,等级划分等方面的应用情况,并对不同检测技术的建模方法在实际应用中存在的优势与不足进行对比分析。针对目前白酒检测过程中的难点与不
随着海洋油气资源勘探开发的重要性日益凸显,对深海厚壁油井管及输送管的需求日益迫切。目前,大多焊管厂依赖经验丰富的操作工通过观察焊缝余高形貌来选择和调整焊接生产工艺参数。焊缝余高形貌、焊接质量和焊接工艺参数之间的影响规律尚未掌握,故难以保障高端焊管产品。高频电阻焊管焊接是一个非常复杂的过程,涉及到电磁场、温度场、应力场及速度场等。基于ANSYS、DEFORM和FLUENT有限元软件,对高频电阻焊管焊
贵金属纳米材料由于其制备简单以及具有独特的催化、光学、电子等相关性能,广泛应用于仿生酶催化检测领域。但是,目前制备出绿色环保同时能发挥优异催化性能的贵金属纳米材料还是具有相当大的挑战。因此,需要找到一种方法制备出粒径均一且具备高度生物相容性的纳米材料,这对于贵金属纳米材料在生物催化检测领域的应用具有重要意义。本研究以四氯钯酸钠和四氯铂酸钾为金属前驱体溶液,以香菇多糖为绿色还原剂和稳定剂合成了三种贵
在淡水资源日益短缺的今天,海水淡化工程发展迅速,其中反渗透工艺依靠其自身技术的成熟性和方便性成为了应用最广泛的海水淡化技术。目前对反渗透海水淡化工程的设计主要还是依靠传统的工程设计经验和厂家提供的计算软件,虽然可以保证设计的基本要求,但是无法保证最优的设计结果。因此有必要采用过程综合设计的方法,对反渗透工程进行整体上的配置设计,使其达到既能明显减少总投资成本又能有效降低能耗的目的。首先,对反渗透系
等离子体清洗技术利用高能量等离子体的轰击被清洗表面,通过物理作用使得污染物从金属表面脱落,同时,电离气体产生的活性粒子会与表面的有机物或者氧化物等发生化学反应进而生成易于挥发的物质,脱落物质通过真空泵的抽气作用排出以达到清洗的效果。等离子清洗技术具有操作简便、成本低等优势。在现阶段等离子清洗设备工作过程中,放电腔体内部存在变化的电磁场和等离子体,磁场的动态变化使得现有常用的等离子体测量手段无法应用
水库泥沙淤积问题普遍存在于全球水库中,影响防洪、发电、航运、水资源利用等水库功能的正常发挥,尤其是坝前泥沙淤积,可能会堵塞电站进水口和泄流底孔,严重影响水库发电效益和泄洪安全。对于大型水库而言,坝前水深一般在100m以上,高效安全地进行坝前深水清淤疏浚是有效控制水库泥沙淤积、保持水资源可持续利用的一种重要途径。本文研究了气动力式深水清淤技术,并在三峡水库坝前深水环境进行了清淤试验。研究结果表明气动
Aeromicrobium panaciterrae Gsoil 161T和Microlunatus ginsengisoli Gsoil 633T是从Pocheon参田分离出来的好氧性革兰氏阳性菌。为了分离这两个新种细菌,做了多项实验。基于16S rRNA基因序列,Gsoil 161T属于Nocardioidaceae家族,与它最为接近的菌株为Aeromicrobium marinum(98.0