基于大规模词频特征的短文本情感分类模型

来源 :武汉大学 | 被引量 : 0次 | 上传用户:mrsouth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体的发展,用户产生内容(UGC)成爆发式增长,这些带有特定情感信息的内容大部分都以短文本的形式出现,主要是用户对于事物或者行为发表的意见,如果能够利用这些大量的数据采用有效的方法来挖掘UGC中有价值的情感信息,这对于个人、企业、政府、国家、社会的政策与规则的制定具有十分重要的意义。大数据时代已经来临,如此庞大的数据对情感分类研究领域来说是一个契机,但也对情感分类研究带来了巨大的挑战。这些挑战主要表现为短文本特征高维稀疏、特定的算法在面对高维特征时会出现维度爆炸现象,特征选择过程中的不确定性对算法稳定性具有较大影响,数量级较小的词典或知识库在面对大规模数据时会出现词语覆盖面小、跨领域适用性差等特点。本文通过对相关短文本情感分类方法的介绍,探讨相关情感分类方法存在的问题。针对存在的问题,本文基于奥卡姆剃刀原理、大数定理、TF-IDF思想,提出一种利用大规模标签语料抽取语料的词频特征、并在此基础上设计了一种短文本情感分类模型--大规模全词频特征模型,这种模型与传统的短文本方法相比,精简了特征选择过程,将所有文本特征纳入模型,减少了特征选择带来的不确定性的同时提高了特征覆盖。实验结果表明,大规模全词频特征模型对特征维度的敏感性较低,并且语料数量对于模型运行效率的影响呈边际递减趋势,同时随着语料数量的不断增加,大规模全词频特征模型的情感分类准确率也不断增加,这表明本文所提模型在大数据环境中具有较好的适用性。通过与朴素贝叶斯、逻辑回归、支持向量机、随机森林、神经网络五种较为成熟且性能稳定的分类器进行对比实验,验证本文全词频特征模型的有效性。同时通过对酒店评论以及外卖评论的分类实验,验证大规模全词频特征模型较强的跨领域适用性以及较好的泛化性能。
其他文献
学位
学位
学位
学位
学位
贷款证券化被认为是引发2007年次贷危机的原因之一。后危机时期,美国金融监管当局对证券化活动以及证券化市场最为活跃的主体——商业银行出台了一系列强化监管的规则。与此同时,受金融危机影响的美国证券化市场在危机后逐渐复苏。在此背景下,研究后危机时期银行证券化的动机及其相对于危机前的变迁、评估监管对不同类型银行证券化的作用效果,对理解银行证券化行为并针对性地调整监管方向有着重要意义和价值。中国银行业于2
随着近年来经济和金融的快速发展,中国居民家庭金融资产总量逐年增加,家庭金融研究的重要性日益凸显。传统家庭金融文献多侧重于诸如财富收入、背景风险、风险态度和其他统计人口特征对于家庭金融资产配置的影响,而较少关注宏观经济因素对家庭金融资产配置的直接影响。家庭风险资产作为家庭金融资产中的重要组成部分,并且家庭金融资产配置的风险化程度与区域经济开放水平差异呈现出高度一致,即东部高于中西部、沿海高于内陆和沿
IPO抑价是各国普遍存在的新股发行价远低于首日收盘价的现象,该现象在我国金融市场较为明显,妨碍到我国金融资金服务实体经济。IPO抑价问题也是一个复杂、混沌的金融问题,BP神经网络较传统线性回归能够更好得刻画IPO抑价率同其影响因素之间的复杂关系。基于IPO抑价的复杂属性和BP神经网络较强的非线性拟合能力,本文构建MIV-BP神经网络模型研究我国的IPO抑价现象。首先,本文运用MIV-BP神经网络模
学位
金融市场的敏感性要求投资者具备快速敏捷的判断力,互联网信息的即时性有助于投资者快速决策,财经信息通常是股民抛售或买进股票的指导手册。在信息获取日益便利的背景下,股票投资者在进行投资决策前一般会对社会环境和具体行业发展进行预判,而这一过程需以全面的信息搜集为基础。大部分股民无法直接真实了解上市公司的实际情况,互联网新闻作为了解社会、行业、公司情况的一个渠道受到股民的广泛关注。本文的研究内容主要分为两