【摘 要】
:
大数据时代,互联网上的信息呈爆炸式增长,人们更多的在网络上搜索知识、浏览新闻。因此,快速、高效的获取主要信息是人们的共同需求。文摘是一篇文章的精炼概括,既反映了文章的主题又极大地降低了人们获取主要信息的成本。随着计算机技术的发展,使用计算机自动的获取文本摘要信息成为现实。在自然语言处理领域,不断提高自动文摘的精准度成为重要的研究方向。本文对基于机器学习方法的抽取式自动文摘进行了深入研究。在文本信息
论文部分内容阅读
大数据时代,互联网上的信息呈爆炸式增长,人们更多的在网络上搜索知识、浏览新闻。因此,快速、高效的获取主要信息是人们的共同需求。文摘是一篇文章的精炼概括,既反映了文章的主题又极大地降低了人们获取主要信息的成本。随着计算机技术的发展,使用计算机自动的获取文本摘要信息成为现实。在自然语言处理领域,不断提高自动文摘的精准度成为重要的研究方向。本文对基于机器学习方法的抽取式自动文摘进行了深入研究。在文本信息的特征提取方面,首先总结了基于统计和规则的文本特征;其次融入了中文语言学方面的特征,如:词性特征、语义角色特征、依存句法特征、语义依存特征;最后引入基于深度学习的Word2vec词向量特征。最终将文本中的句子转换为347维的特征向量作为机器学习模型的输入。在考虑了数据集人工文摘形式的基础上,利用文本信息的这些丰富特征,使用了六种经典的回归算法模型对文本信息进行自动文摘抽取。与传统方法进行对比,拥有丰富特征集合的机器学习方法提高了自动文摘的性能。在此基础上,利用表现优异的模型对时事新闻进行了自动文摘抽取,得到了不错的效果。
其他文献
目前,有关脉冲星导航与脉冲星时间尺度的研究成为了我国及世界天文学界的一个热点研究方向。为早日成功实现脉冲星导航的实际应用,除进行理论探究与长期地面观测外,我国于近年先后发射了多颗可用于脉冲星计时与脉冲星导航试验的卫星,获得了大量的数据。通过对卫星获得的脉冲星观测数据进行分析与处理,可以对计时精度进行评价,为日后更深层次的天基脉冲星计时及导航试验提供参考。鉴于此,本文阐明了X射线脉冲星计时和脉冲星导
自二十世纪五十年代中期发现烯烃复分解以来,人们对使用这种多功能反应合成大分子材料产生了极大的兴趣。随着新催化剂的发展,开环易位聚合(ring-opening metathesis polymeri
决策是管理的核心,公安机关决策者的决策直接关乎人民群众的安全感、幸福感、获得感。决策者要想在复杂的社会环境下做出科学、合理的决策就需要大量、客观、准确、及时的公安情报产品予以支持、辅助。但当前,公安情报产品存在多方面的不足致使其服务决策的作用未能充分发挥,不利于决策者做出满意的决策。本文以决策者对决策的满意标准为出发点,分析公安情报产品在服务决策中存在不足的原因,探寻公安情报产品可行性的优化策略,
随着温度传感器技术日新月异,温度测试研究已从稳态温度场转向瞬态温度场,尤其是针对瞬态高温的精准测试研究已成为时下热门课题。热电偶作为常用的温度传感器之一,因其测温范围较大、测温上限较高等被广泛应用于高温测试环境。但是,其滞后性的存在往往会导致测温延迟,最终造成测温不准确等问题。因此针对高温、高难度、单次瞬态等恶劣环境下温度测试对热电偶传感器提出的严苛要求,开展有关热电偶时间常数测试方法及时间常数精
在水下地形测量中,由于大型测量船受到吃水等原因影响,在近岸、浅滩、岛礁等浅水区域的水下地形测量比较困难且难以覆盖全部监测水域,而多波束探测设备发射功率大导致传统的
推广钢结构建筑是发展装配式建筑的有效途径,钢框架结构是目前高层钢结构建筑中应用最广泛的一种结构型式,其具有自重较轻、建筑空间大、平面布置灵活、施工周期短、利于装配
随着电力技术的发展和电力用户对供电可靠性要求的提高,小电流接地系统成为配电网的主要接地形式,这一系统发生单相接地故障时,在线运行故障选线一直是中压配电网继电保护技
近几年来,我国城市化进程达到全所未有的高度,全国各大城市都如火如荼地进行城市的大规模建设,但城市的快速扩张却使街道空间出现品质下降、特色消失等问题,导致街道活力逐渐
近年来国内外学者对掺石粉混凝土的研究保持较高的关注度。研究表明将大理石粉掺入到砂浆中能够提高砂浆的抗压强度,改善孔隙结构,降低砂浆收缩率和渗透率。但是,目前针对大
目的旨在克服现有抗原筛选方法的不足,构建我国铜绿假单胞菌(Pseudomonas aeruginosa,PA)临床分离株XN-1的全基因组文库,从中筛选PA疫苗的候选抗原,为防控PA感染打下基础。方法1.全基因组文库的构建:提取PA XN-1全基因组DNA,内切酶Sau3A I酶切DNA,内切酶BamH I酶切的载体pMal-c5x。通过连接酶将其与随机基因组片段连接,构建随机重组子质粒。转化随机