基于TF-IDF矩阵和胶囊网络的文本分类

来源 :天津大学 | 被引量 : 0次 | 上传用户:adidas9910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理的研究领域里,文本分类是一个十分经典的问题。不仅如此,文本分类过程还是内容过滤、特征提取等自然语言处理问题的基础之一。随着网络媒体的快速发展,通过网络媒体进行传输的数据量逐渐增多,其中,文本数据增长的数量更是十分地巨大。这些信息十分具有价值,它们与网络用户的阅读行为关系密切并且包含着巨大的深层信息。如果可以根据不同的需求对文本信息进行准确的分类,这将会对文本深层信息的提取有很大的帮助,所以一个有效的文本分类算法具有一定的理论意义与应用价值。在文本中存在一些词汇与文本分类过程关系很小,这些词在文本分类过程中与文本呈弱相关状态。TF-IDF(Term Frequency-Inverse Document Frequency)算法是当前信息检索领域中进行词频统计的一种有效算法,它在进行词频加权统计时能够同时考虑词汇对于文本数据集和当前分析的文本的重要性。基于神经网络的分类方法是当前文本分类中比较常见的机器方法,其中,基于卷积神经网络的文本分类方法受研究学者的欢迎并成为研究的热点之一。但是卷积神经网络在反向传播过程等方面存在一些弊端,可能会对文本分类效果产生一定的影响。胶囊网络利用动态路由算法可以在一定程度上针对以上问题对神经网络结构进行改进。本文主要工作及创新如下:(1)根据文本数据特点,提出基于TF-IDF矩阵的弱相关词汇去除算法,去除文本数据中对文本分类影响较小的一些词汇,减少文本特征,从而减少文本词嵌入的向量大小,增加文本分类器的效率。(2)使用基于胶囊网络的文本分类模型对文本数据进行分类,通过动态路由算法来改进反向传播过程中由局部最优解导致的文本分类准确性降低的情况。(3)通过实验,验证了基于TF-IDF矩阵的弱相关词汇去除算法和基于胶囊网络的文本分类模型在文本分类方面的有效性。除此之外,本文还对现有的卷积神经网络文本分类模型的不足进行分析和总结,提出未来相关研究的展望。
其他文献
介绍了基于VB软件平台开发的葛洲坝水电站机组轴线调整计算机辅助分析系统(TGAS系统),采用三点组合解析均值法对轴线测量数据进行了计算分析,为机组轴线调整提供了安全、可靠和
北京园博园,位于永定河西岸,面积是颐和园的1.7倍。在蔽目的绿荫中,在袭人的花香中,掩映着百余处园中之园,荟草了古今中外造园艺术的精华。其中的锦绣谷便是一颗“明珠”,其选址区域
根据SF6气体的红外光谱吸收原理,设计并实现了一种定量检测SF6气体的便携式检漏仪。通过对传感器信号进行温度补偿和压力补偿,有效提高了仪表测量精度和灵敏度。采用双波长双光束检测方法,解决了因光源老化、采样池和检测器表面污染的因素使测量精度下降的问题。通过实验测量和现场应用,该检漏仪设计性能稳定、测量精度高,测量范围为0~50ppm,精确度为0.65ppm。
2014年11月29日。纪念《湖北大学学报》(哲学社会科学版)创刊四十周年暨人文社科期刊数字化建设研讨会在湖北大学举行。湖北省新闻出版广电局局长张良成、副局长邵明义,湖北省委宣传部秘书长别业超。湖北大学校长熊健民、正校级干部鄢明明,教育部社科司出版管理处、湖北省委宣传部理论处、湖北省新闻出版广电局报刊处、全国高校文科学报研究会、湖北省期刊协会、湖北省高校学报研究会、四大文摘、中国知网、部分高校学报和社科期刊等单位和部门的领导,作者代表,共78位嘉宾出席了会议。
近十年来,我国花卉产业取得巨大的进步和发展,并已趋于成熟稳定,花卉种植面积逐年增大,品种规格亦逐年增多。花卉产业高速发展的同时,花卉病虫害也相续发生,并且给花卉带来不
"城市,让生活更美好",这句体现2010年上海世博会主题的宣传口号,使关于城市功能的共识得到了广泛的传播。尽管也有质疑的声音:环境污染、交通拥堵、公共设施不完善等等,但是产业
基于大型有限元分析软件ANSYS建立了可升卧式翻板闸门的有限元模型,分析了滑块反力特性及闸门在不同工况下的变形和应力变化规律,并校核了闸门强度和刚度.评估了闸门的安全性。
随着教育信息化水平的提高,考试试卷不再局限于纸质试卷,阅卷也不再局限于手工阅卷。云校阅卷是一种基于互联网平台的数据云存储智能阅卷方式。它能够提供随时随地网上阅卷,
2016年10月22日,由中国赋学会主办,湖北大学文学院、三峡大学文学与传媒学院共同承办的第十二届国际辞赋学学术研讨会,在湖北大学隆重开幕。一百多位来自中国大陆、香港、台湾及日、韩、新、马等国研究中国古代辞赋的专家学者出席了本次研讨会。