基于SVM的文本情感分类研究及应用

来源 :大连海事大学 | 被引量 : 5次 | 上传用户:myyiao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网以及移动互联网的快速普及和发展,互联网已经成为人们日常生活中获取和传递信息、交流主观情感的重要渠道。文本情感分类就是使用计算机强大的数据处理能力对具有感情色彩的观点、意见进行处理、分类、归纳和推理的过程。对互联网中的评论文本进行情感分析,能够发现用户的情感规律,挖掘其中的潜在价值,并应用于用户决策、评价分类、舆情监测、信息检索、垃圾信息过滤等诸多领域。本文以真实的中文影评为对象,进行了文本的情感分类研究。本文首先介绍了基于机器学习的中文文本情感分类的基础理论知识,包括对中文文本的预处理、文本表示模型、特征选择方法、特征权重计算等,重点研究了目前应用较为广泛的特征选择方法以及特征权重计算方法。其次,认真研究了 SVM算法的数学原理与建模过程,就SVM的基本方法和核函数选择等问题进行了讨论。在此基础之上阐述了 PSO算法的原理,针对PSO算法在后期容易陷入局部收敛的问题,引入了收敛因子、改进越界粒子的处理方式、引入粒子的自适应位置变异处理对PSO算法进行了改进,并通过四个Benchmark基准测试函数验证了改进PSO算法的有效性。通过UCI数据库中的Sonar数据集和Banknote数据集对比了交叉验证和改进PSO优化的SVM参数两种方法的分类精度,验证了本文提出的改进PSO算法优化SVM参数的可行性。最后,本文通过网络爬虫抓取豆瓣电影中的真实影评文本作为情感分类应用的数据基础,利用结巴分词对文本进行分词处理,通过CHI统计量对文本进行特征选择,采用TF-IDF方法进行特征权重的计算,从而得到中文影评的文本向量化表示。之后分别对SVM模型和通过改进PSO算法优化的SVM模型进行文本情感分类,利用相应的评测指标对分类结果进行性能评估,验证了新模型在文本情感分类中的性能改进。
其他文献
长期以来,不规范化和隐藏操作的地下金融发展势头迅速,极大地影响了我国金融市场的稳定和政府管束的难度。文章利用MIMIC模型,通过分析面板数据估算了中国地下金融的发展规模
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
资源枯竭和环境污染日益严峻,以当前中国的经济和社会现状为基点,在保持适度高速发展的同时,仅依靠国家有限的财政资金遏制环境恶化的势头,既不可行也不现实。基于我国面临十面“
摘 要:高中政治学科素材内容大多都来源于实际生活,而学生学习政治知识的最终目的是培养正确的人生价值观,从而能够以积极向上的态度去面对学习与工作,成为一个对社会发展有益的高素质人才。笔者是一名高中文科生,在学习政治过程中不断地总结经验和教训,把政治学科与实际生活素材相互联系起来,帮助自己更好地理解政治学科内容,并且做到学以致用。本文针对高中政治学科知识与实际生活的联系展开分析,望对学习者具备一定的借
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
采用SSM一次法混炼新技术生产胎面胶料,加入固体环保油SG-100新材料,在开炼机高速长时间混炼后提高了固体环保油的分散性,使胶料的均匀性和稳定性均有提高,定伸应力和拉伸强
建立了超高效液相色谱-串联质谱法测定Beagle犬血浆中的尼莫地平。以尼群地平为内标,使用Waters Cortecs C18色谱柱,采用电喷雾电离源(ESI),多反应监测(MRM)模式,正离子检测
近年来,全球经济一体化趋势使得市场竞争格局发生了根本性的变化,市场竞争环境日益残酷和激烈。在发展战略制胜的市场竞争时代,实施企业发展战略成为企业的生存发展之道,越来
情感是人对客观事物的一种态度;是人的一种特有的、高级的需要;是学生智力及非智力发展的原动力;是语文学习中理解和表达的心理基础。因此,在语文教学过程中,必须重视情感因素,在教
研究投资决策如何能够把握未来的成本机会,投资于增长期权,将使企业处于领先的战略优势地位。未来收益的不确定性越大,对战略投资者来说,面对的不仅是较高的风险,而且是更多的成长