LDA最大概率填充与BiLSTM模型的文本分类研究

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:szcentsweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理(NLP)领域中的基础任务,双向长短时记忆网络(BiLSTM)具有遗忘细胞状态中的信息和记忆新的信息、在上下文中依赖能力较好的优势.为进一步增强文本的特征表达,本文提出一种基于LDA的最大概率填充模型.首先,运用Word2Vec词嵌入方式生成文本向量;其次,根据LDA模型对文本向量矩阵进行填充,丰富语义信息,采用BiLSTM_Attention模型训练填充后的向量矩阵;最后,采用softmax进行分类.实验结果表明,本文提出的方法在IMDB电影评论分析数据集中的分类准确率为98.43%,相较于单向的RNN模型提高1.63%,比双向的BiLSTM_Attention模型提高0.83%.
其他文献
本文对上海市的医疗卫生资源配置水平进行评价,为进一步优化医疗卫生资源配置提供参考依据.基于集聚度理论,横向上对上海市16个区的医疗卫生资源进行公平性评价;纵向上对2010~2019年上海市各类医疗卫生资源进行分析.从横向上看,上海中心城区卫生资源按地理配置的公平性高于按人口配置;郊区以及浦东新区不管是按地理配置还是人口配置公平性相对于中心城区都较差.从纵向上看,2010~2019年上海各类卫生资源在全国地理面积范围内集中度都较高,但医疗机构按人口配置公平性较低.由此得出结论:经济发展水平对卫生资源公平性影
为准确预测农村地区公路网中短期发展规模,研究提出了基于高分遥感影像与地形、区域功能及周边环境划分的农村地区公路网中短期发展规模预测模型.模型采用基于地形区域分类的方法,以深度神经网络提取的路网高分遥感影像为基础数据,综合考虑路网分布、自然村分布及路网提取算法精度等客观情况,并对遥感影像质量偏低导致的识别率下降进行了里程修正.不同地区、不同地理区域下的应用实验结果表明,模型预测结果与当地交通运输主管部门基于项目建设计划汇总的发展目标相比,其拟合度在以山地为主的区域达到95.5%,以平原耕地为主的区域达到94
针对当前智能电网和电力互联背景下非侵入式负荷监测存在的不足,本文设计并实现了一种基于物联网的用电器在线监测系统.系统通过CS5463电能采集芯片获得用电器特征电参数,利用STM32运行FFT算法和一种多维识别算法,实现用电器的非侵入式监测.识别和监测信息经ZigBee传输至服务器中,用户端可通过Qt上位机远程访问数据来在线监测.从实验结果来看,该系统很好地实现了非侵入式监测的功能,能准确识别用电器并在线实时监测用电器工作状态,系统可实施性强,为智能家居和电力物联发展提供技术支撑.
为提升我国农村客运安全水平,在全国范围内对农村客运安全责任事故数据进行统计,梳理分析了我国农村客运责任事故发生的规律和特征,从建设交通强国需求和农村客运发展环境两个方面剖析了安全发展面临的挑战.通过数据和趋势分析,找出了制约我国农村客运安全发展的原因在于基础设施薄弱、市场秩序混乱、管理机制不健全、安全意识淡薄、资金投入不足、保障体系不完善.针对存在的问题,提出提升设施设备安全性能、改善运输市场秩序、强化监督管理能力、提高安全意识素养、加强资金支持保障和健全预防控制体系等对策建议,以进一步加强农村客运安全管
问句相似度算法是常见问题集(Frequently Asked Questions,FAQ)问答系统的核心,本文旨在对问句相似度算法进行改良,提高羊养殖FAQ问答系统的准确率.针对于此,本文提出了一种基于多特征融合的相似度计算方法.该方法提取几种常见的自然语言处理特征,以及3个改良深度学习模型提取的特征,采用集成学习模型堆叠(stacking)处理这些特征,训练一个分类器,对问句对进行相似判断.通过相关书籍及爬虫,构建了一个72 660对的养羊问句对数据集进行实验.实验证明,该相似度算法能够有效提高羊养殖F
无线接入用户的需求呈爆炸式增长,5G网络流量呈指数级增长且呈现出多样性、异构性的趋势,使得网络流量预测面临诸多挑战.针对5 G网络部署宏基站、微基站与微微基站的多层架构,文中提出基于生成对抗网络(GAN)的流量预测方法.首先,生成网络分别捕捉流量时空特征与基站类型特征,将拼接特征输入复合残差模块以生成预测流量,并将生成流量输入判别网络;然后,判别网络判断生成流量是真实流量还是预测流量;最后,经过生成网络与判别网络的博弈对抗使生成网络生成高精度的预测流量.实验结果表明,GAN的二维均方根预测误差分别比2DC
为了解决连锁餐厅之间派送员相互调度与自我调度问题,研究了基于聚类分配的时间轴派送员调度算法.不失一般性,以3家近距离连锁餐厅为对象,以总配送成本最小为目标函数建立连锁订单分配与派送员调度模型,以配送里程、派送员单程承载量、客户需求时间作为约束条件.设计基于紧密程度的订单聚类算法,改进C-W节约法混合蚁群算法求解配送路线.利用计算机仿真方法进行动态路径规划仿真模拟,验证算法有效性.本文算法为连锁餐饮企业订单分配与物流派送提供参考.
遥感卫星搭载的成像传感器由于受到姿态颤振、传感器自身物理性质等因素的影响,导致遥感图像质量下降,其中辐射质量方面主要表现为图像模糊.本文针对遥感图像模糊的问题,分别采用了基于强度和梯度的L0正则化先验、学习迭代自适应先验、局部最小强度先验的图像盲复原等方法,对遥感图像进行去模糊处理,对比分析了 3种算法在遥感图像辐射质量提升上的复原效果.实验结果表明:3种盲复原方法均能在一定程度上较好地提升遥感图像的辐射质量,复原后的遥感图像更加清晰.其中,基于局部最小强度先验的盲复原结果复原细节更多、噪声更少.本文结果
近似最近邻搜索是数据库、图像检索等领域的一个重要问题.目前,基于图的近似最近邻搜索算法因其查询速度快、查询精度高而备受关注,该类算法致力于构建高质量的索引,但往往忽略了查询阶段的方法.本文针对基于图的搜索算法的查询阶段,结合自适应的提前终止查询与L&C算法,对查询阶段进行改进并验证.实验结果表明,改进后的算法与L&C算法相比,平均查询时间最大可减少76%.
为解决FBMC(Filter Bank Multicarrier)信道估计中导频符号所含虚部干扰的影响,提出了一种新的块状导频序列设计方案,在继承了 NPS(Novel Preamble Structure)方案中对接收端有效数据的干扰较小这一优点的同时,有效克服了其伪导频功率较低的缺陷.同时在此基础上进一步提出了一种新的干扰消除的块状导频序列设计方案,该方案不仅可以使目前所有基于块状导频的干扰利用法能够实现消除来自一阶邻域之外的未知数据干扰,而且还具有频谱效率不受影响、计算复杂度增加较少等优点.理论分析