面向短文本的特征选择方法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:jayleardutt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,互联网进入人们的生活。信息与数据也是以各种各样的形式出现:语音、视频、图像和文本等。在这些数据形式中,文本数据一直以传输速率快、内存小等优势传播最为广泛。正因如此,文本形态的数据越来越多。从文本数据中获取到最有用的信息这一问题,成为了领域内很受欢迎的课题。要从文本中获取信息,首先需要对其进行分类,文本分类也就此产生。由于短文本的数据稀疏、歧义,对这种文本形式进行分类就成了文本分类中一项具有挑战性的任务。对于文本的处理,分类效果主要取决于特征选择结果的好坏。对特征选择这个方向的探讨至关重要。本文对短文本的特征选择算法进行了研究,结合短文本的特征进行了算法分析和改进,以影评文本和新闻文本为实验数据对算法进行了验证。本文主要针对信息增益算法进行研究与改进,并结合深度学习内容,引入Bert模型和注意力机制。主要的工作内容分为以下几个方面:第一,对理论知识进行了研究。分析了文本分类的定义、相关概念、分类流程以及各个分类流程关键的算法步骤;介绍了常见的特征选择方法及它们的优缺点;又介绍了研究工作中用到的Bert模型的输入输出和预处理流程;对注意力机制的相关知识进行了阐述。第二,给出了对信息增益算法的改进思路。通过对信息增益算法的分析,针对算法计算公式的两个不足:忽略词频因素对分类效果的影响和特征词未出现情况为分类带来的干扰大于其带来的贡献,分别为算法引入了词频因子和平衡因子,又针对特征选择算法忽略词性的问题引入词性过滤步骤,提出了一种改进信息增益算法,有效提升特征选择的效果。第三,通过对短文本的特点进行分析,为改进后的算法引入Bert模型和注意力机制。提出了一种基于注意力机制的改进特征选择模型,有效解决了短文本特征稀疏歧义和上下文关联性强的问题。最后,实验及结果分析。本文针对短文本,分别在二分类和多分类的数据集上对提出的改进信息增益算法和改进特征选择模型进行了实验验证,并通过准确率、召回率和F1值等评价指标来评判实验结果,证明了改进算法和改进模型在特征选择上的有效性。
其他文献
多宝塔碑我在西安碑林讲解了20多年,见过的游客很多是为书法而来。人们一提到书法,男女老幼都会说一句“颜筋柳骨”。这个说法出自宋代大儒范仲淹的《祭石学士文》:“曼卿之笔,颜筋柳骨。散落人间,宝为神物。”很多书家也都有“书法入门,先习颜柳”的说法。柳公权且先按下不提,而颜真卿这位生于盛唐的英雄,亲眼见证了大唐的巅峰,亲笔书写了盛唐书法的经典篇章。
期刊
【作品概况】《颜家庙碑》全称《唐故通议大夫行薛王右柱国赠秘书少监国子祭酒太子少保颜君庙碑铭并序》,是颜真卿唐建中元年(公元780年)为其父颜惟贞所立的家庙碑。颜真卿72岁撰文并书。碑高338.1厘米,宽176厘米。楷书,四面刻,唐代篆书名家李阳冰篆额。书与额世称“双绝”。原碑完好,现藏西安碑林。
期刊
基于区域构造特征、野外露头、钻井、测井等资料,对川中地区寒武系沧浪铺组沉积特征进行了研究,重建了古沉积环境,明确了各沉积相的横向展布特征并预测了有利储层发育区。研究结果表明:(1)川中地区德阳—安岳裂陷槽内发育深水陆棚相,以碎屑岩沉积为主;裂陷槽以东高磨—龙女寺—北斜坡地区为浅水陆棚相,可细分为3种亚相:碳酸盐浅水陆棚亚相以细晶或颗粒灰岩、细晶或颗粒白云岩为主,见古杯、腕足类等生物,自然伽马和电阻
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,
以四川古蔺芭蕉村二叠系剖面为研究对象,在野外沉积特征详细观测的基础上,利用岩石薄片鉴定、全岩X衍射分析、元素地球化学与碳、氧、锶同位素分析,对其地层、沉积环境与演化特征进行研究,为四川盆地二叠系沉积特征研究与天然气勘探提供基础资料。研究表明,四川古蔺芭蕉村地区从二叠系梁山组至栖霞组开始海侵,栖霞组由下向上水体先变深又变浅,呈缺氧—贫氧环境;茅口组底部又一次海侵,以继承栖霞组沉积环境为特征,在茅口组
随着社会的发展,人们对阅读能力的培养越来越重视。尤其是新课程改革后,提高学生的阅读能力更是成为了小学语文的重点教学目标之一。本文立足于农村小学语文教学,从提高学生的整体感知能力、提高学生的自主探究能力、培养的学生良好阅读习惯等方面展开论述,为提高农村小学生阅读能力的方法提供参考。
在人们对文本采集需求不断提升的背景下,带噪短文本去噪问题成为研究的重点问题。基于此,分析了带噪短文本的结构特征以及噪声特征,并对几种传统文本去噪算法进行了简要介绍,然后探讨了快速去噪的算法流程和相关技术,以期能够为相关从业人员提供有效参考。
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anacond