基于Attention Bi-LSTM的文本分类方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:binsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,互联网上产生出了大量文本数据。文本分类技术作为组织和处理大量文本数据的关键技术也同时得到了快速的发展。虽然文本数据蕴含了丰富的信息,但由于具有非结构化的特点,使得计算机无法直接进行计算处理,进而无法获取到有价值的信息。文本分类技术的核心在于文本的向量化表示。传统的文本表示方法是基于关键词设置和词频统计,这种方法的缺点在于忽略了词语之间的关联关系和隐藏在文本上下文中的语义信息,并且提取到的特征向量具有高维度和高稀疏性的缺点。随着深度学习技术的不断发展,深度神经网络模型被证明在非结构化数据的特征提取方面具有独特的优势。本文在总结研究传统文本特征提取和分类方法的基础上,对运用深度神经网络模型解决文本分类问题进行了深入研究。本文的主要研究工作有:本文研究分析了文本分类问题中的几个关键步骤。首先对词嵌入技术进行了研究。词嵌入能够通过神经网络将词语映射到一个低维度的实数向量中,有效避免了传统词向量缺乏语义信息的缺点。之后对文本特征提取和分类方法进行了研究,认为在传统方法中,特征向量维度往往较大,并且忽视了文本中词序信息的重要性。本文认为,利用LSTM处理序列化数据的优势,将LSTM运用在文本进行特征提取和分类任务中,能够在最大程度上解决传统方法中存在的问题。本文在基于LSTM的特征提取与分类模型的基础上,提出将注意力机制与Bi-LSTM模型相结合的策略来解决文本分类问题,进一步提升分类模型的性能。融合注意力机制后的Bi-LSTM模型能够通过计算中间状态与最终状态之间的相关关系得到关于注意力的概率分布,目的在于对每一时刻下的状态加以不同的权重,能够在保留有效信息的基础上,最大程度解决信息冗余的问题,通过优化文本特征向量进一步提升文本分类的精度。
其他文献
目的观察柴胡疏肝散联合氟西汀对产后抑郁症患者IL-6、IL-1β、TNF-ɑ因子的影响。方法选取嘉兴市妇幼保健院科室2013年11月~2015年7月收治的产后抑郁症患者共83例,按随机数
文章尝试从创伤理论的角度并重点结合文中人物的创伤经历来阐述诺曼·梅勒的代表作之一《一场美国梦》这部小说。小说中有三位主要人物都有不同程度的创伤经历,他们的症状也
目的研究丹参酮ⅡA对慢性阻塞性肺疾病(COPD)患者血清白介素(IL)-1β和IL-1受体拮抗剂(IL-1Ra)的影响,。方法选取38例COPD患者随机分为丹参酮ⅡA组和对照组,检测和比较治疗前
针对船用防爆搬运车的使用环境要求,设计了防爆型锂电池组和防爆型管理系统,按照防爆性能试验和防爆区域设计要求,对锂电池组和电池管理系统进行了测试,试验结果符合船用防爆
农业供给侧结构性改革是实施乡村振兴战略的必然要求,同时也是实现乡村振兴总要求的重要途径。因此,实施乡村振兴战略必须以农业供给侧结构性改革为主线,走中国特色社会主义
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield