基于特征融合和biLSTM的短文本分类方法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:lantaiwin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中抽取人类所需的信息是目前文本分类领域面临的一大难题;研究快速、灵活、高效、低耗的短文本内容提取策略是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。目前,短文本分类主要包括两种:基于特征工程的机器学习方法和基于神经网络的深度学习方法,本文做的主要工作是:构建多因素(特征的重要性、语义、维度)融合的特征选择函数FS,和传统的特征选择函数对比,FS不仅融入了特征的语义性,而且能够去除大量冗余特征,提高具有类别区分能力特征的权重;把FS作为新的特征选择函数,使用搜狗实验室的中文语料库进行短文本分类实验,验证了方法有效性,提高了短文本分类的准确率。提出一种在双向长短期记忆网络(biLSTM)的基础上结合注意力机制(Attention)和对抗训练的多层级短文本分类模型,模型包括输入层、biLSTM层、注意力机制层、模型优化层,其中输入层由词嵌入部分和词嵌入扰动部分构成,词嵌入扰动部分通过对抗训练对模型输入制造很小的扰动来增加训练过程中的参数更新,biLSTM层可以提取上下文不同距离语义化的信息,注意力机制层对经过biLSTM层编码的数据进行转变加权提升序列化的学习任务;模型优化层利用softmax函数使误差loss极小化并对短文本语料进行分类;在数据集(DBpedia)上进行实验,与分类性能较好的模型(Attention-LSTM)、(Attention-biLSTM)、(CNN-LSTM)、相比,这个多层级的深度学习模型分类性能更好,稳定性、泛化能力较强,预测分类准确率达97%,损失函数值稳定在0.5%左右。
其他文献
新疆作为西北边疆腹地,与14个国家相邻,是丝绸之路经济带的重要位置,其重要的经济、政治战略地位不言而喻,其经济发展对西北地区经济发展、乃至全国的经济发展意义重大。尼勒
随着网络购物的快速发展,产生了大量与商品相关具有研究价值的评论信息。这些信息对平台的发展、商家的信誉和消费者的购物体验有着非常重要的指导意义。这些评论数量巨大,仅仅靠人力难以分析处理。情感分析就是运用自然语言处理相关技术商品评论进行研究,并提取评论中有价值情感信息的技术。但是普通情感分析无法识别出同一评论中不同对象的情感,而对象级情感分析则可以识别出评论中不同的评论对象以及这些评论对象的不同情感,
Mo_2Fe B_2基金属陶瓷是一种具备高硬度、高耐磨性、良好的高温稳定性、优良的导电性的高性能复合材料,在高硬度和高耐磨领域有着广阔的应用前景。本文采用低成本的钼铁粉、碳化硼粉、铁粉为原料通过原位反应烧结法制备了Mo_2Fe B_2基金属陶瓷,并采用了X射线衍射(XRD)、扫描电子显微镜(SEM)、X射线能谱(EDS)和力学性能分析等检测手段系统地分析了Mo_2Fe B_2基金属陶瓷的烧结工艺、
随着计算机技术的发展,各种应用软件逐渐深入到人们日常生活的各个领域。但是应用软件的微小错误都可能对人们造成极其负面的影响,为此提高软件系统的可靠性和安全性是非常重要的。运行时验证作为一种轻量级验证技术,弥补了传统验证技术的缺陷,使用形式化方法描述性质并将其转换为对应的监控器,然后从被验证系统中提取运行轨迹并交予监控器,最终监控器将判断性质给出结果与反馈。各种时序逻辑被广泛用来描述运行时验证性质,命
随着互联网的发展,医疗机构的数据信息化建设也在逐步完善,这些丰富的数据资源蕴藏着许多有价值的信息,帮助研究学者对疾病获得更深层次的了解。作为系统生物医学中的常规工具,复杂网络可以获得疾病之间的全局和局部关系的全景图,从而更好地指导医生进行临床实践。现在有许多研究集中在常见的系统性疾病,而很少有研究集中在眼科疾病并发现眼科疾病与其它疾病之间的关系。对于眼科疾病,由于眼睛与其它器官关系密切,诊断过程较
近年来,多层复杂网络在学术界得到了越来越多的关注;相较于只能描述节点间单一关系的简单网络,多层网络可以同时表达出节点间的多重关系。而在现实世界的复杂系统中,个体之间往往同时具备不同的连接关系,例如:商人之间往往同时存在商业往来和朋友交际两种不同的联系,因此多层网络更适合用于完整的描述现实生活中的复杂系统。多层网络的数学表示一般使用邻接矩阵或者邻接表,因此随着网络层数的增加需要的存储空间也是线性增加
视觉惯性里程计(Visual Inertial Odometry)是融合视觉信息和惯性测量信息的SLAM系统。SLAM是Simultaneous Localization and Mapping的缩写,中文名称为同步定位与地图构建,是现代机器人开发使用中不可或缺的一项技术,随着人工智能水平和计算机计算能力的不断发展,近年来视觉SLAM技术的研究越来越火热。但纯视觉SLAM工作的场景仍然受限,只有在
改革开放至今40余年,中国经济总量快速增长,经济增速较快,人民生活水平显著提高。中国GDP在2011年之前年均增长率保持在9%以上,2012年之后增速放缓,总体保持在6%以上。当前,中国已是世界公认的第一制造业大国,可以说制造业为中国经济增长提供了重要支撑。但中国以往主要是通过投入大量资源和廉价劳动力的方式来促进经济增长,如今受环境与资源约束,这种发展模式不能持续。要想在未来依然实现经济的可持续发
随着工业机器人逐渐走向智能化,越来越多的产业选择机器人代替人工作业,不仅可以帮助企业提高生产安全性,同时还可以提高生产效率,降低管理成本。在石化产业中,生产活动多在高温高压、易燃易爆环境下进行,为保障其生产安全性,泵房内设备的异常检测与应急作业显得尤为重要。对泵房内设备的异常检测任务主要包括:工业指针式仪表的示数读取,以判断设备内部介质状态,对设备表面温度的异常区域检测,以判断设备运行状态。泵房内
民国时期,国民政府和云南地方政府都比较重视云南民族地区的民众教育,制定了一系列相关的政策和措施。本文运用文献研究法,结合访谈对象的口述史,以民国时期大理县的民众教育为研究对象,整理民国时期大理县民众教育的实施情况,分析民众教育与民众的相互关系,探索民众教育对大理县的影响。文章分为五个部分。第一章从政策支持、经费保障两方面进行论述,探索民国时期大理县民众教育实施背景下的社会关系,并分析地方实施的原则