互联网评论文本情感分析研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ttcj_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的飞速发展,越来越多的互联网用户在各种网站上分享经验和发表评论,这些评论文本表达了评论者的观点和情感,用户也习惯于从互联网的各种评论中获取信息,为自己的某些决策寻找参考意见。分析用户发表在互联网上的评论,能够发现用户情感的演化规律,挖掘其中的潜在信息,具有巨大的应用价值。但是目前互联网上的信息量增长迅速,我们迫切需要借助自动化工具,在大量的信息来源中迅速获取我们真正需要的信息,从而应对信息爆炸带来的挑战。如何对这些包含大量信息的互联网评论文本进行情感分类、挖掘其中蕴含的情感信息是自然语言处理领域的研究难点,也已成为商业智能领域的关注热点,由此引发众多研究人员进行相关研究,文本情感分析相关技术应运而生。文本情感分析是一个综合性的研究领域,目前主流的研究方法分为两种类型:无监督的文本情感分析和有监督的文本情感分析。无监督的文本情感分析主要是运用情感词的相关信息进行文本情感倾向判别,有监督的文本情感分析主要是运用朴素贝叶斯、支持向量机等有监督学习算法进行情感分类,一般是将文本集合划分为训练集和测试集,再对文本分词处理、删除停用词、选取特征,将文本表示成为文本向量的形式,最后训练分类器并进行分析。本文在针对无监督学习中文文本情感分析的研究中使用中文情感极性词典NTUSD和HowNet词典的并集组成基础词典,使用微软云平台提供的Bing Search API,并改进开源Python库使之支持中文和查询结果缓存,在中文语料库上改进并实现了SO-PMI-IR算法。在此基础上提出了针对上述基础词典进行筛选的SO-PMI-Lexicon算法,通过调节SO-PMI阈值,保留其中有明显情感倾向的词,提高了分类准确率。在针对有监督学习中文文本情感分析的研究中,对数据挖掘工具Weka进行二次开发,对电商评论语料库应用主流的有监督学习算法(SVM, Naive Bayes,Decision Tree)得到基准实验结果,并尝试将语料库中每个有意义词的正则化的SO-PMI值作为文档向量的权值,改进了SVM算法的运行效率。
其他文献
<正>近年来,突发性耳聋的发病率有上升的趋势。多数学者认为本病的病因与病毒感染、内淋巴积水和耳蜗循环功能障碍等诸多因素有关[1]。以上几种病因可能都在突发性耳聋发病过
目的观察补阳还五汤联合刺血拔罐治疗带状疱疹后遗神经痛的临床疗效。方法将89例带状疱疹后遗神经痛患者随机分为2组,治疗组30例口服补阳还五汤,同时配合刺血拔罐。对照组30
传统的翻译研究从翻译本体的理念出发,拒绝承认编译这种翻译改写手段的合法性。而事实上,编译作为一种特殊的翻译改写手段,其又编又译的特点可以将大量的文本信息经过集中处
语言环境是护患关系交往的关键;正确的沟通方式是护患交往的基本条件;专业护理知识及技术是护患关系交往的内涵;通过微笑服务加深护患关系的沟通,在促进护患关系交往中起着重
<正> 岸边成雄(Kishibe,shigeo.1912年6自16日出生于乐京神田神保町。1936年毕业于东京帝国大学文学系东洋史学专业,师承田边尚雄。是他最早将比较音乐学介绍到日本,并对日本
目的:探讨中医疗法治疗周围性面瘫后遗症的效果。方法:选择216例周围性面瘫后遗症患者,随即分为2组(n=158),治疗组采用中医五联疗法治疗,对照组采用穴位针灸法治疗,记录、分
<正> 由盛建颐、杨素凝、张永清、周文英同志合编、上海音乐出版社出版的《儿童钢琴初步教程》,是目前国内所出、国人所编的影响最大、累计印数最多的一套幼儿——儿童钢琴教
目的探讨供者外周造血干细胞采集术的护理,提供足够细胞数量的外周造血干细胞数,确保受者外周造血干细胞移植的成功。方法分析2006~2010年供者资料,其外周血干细胞动员方案为
针对当今林业苗圃建设实际,归纳总结现代化林业苗圃建设指标,提出目前广西林业苗圃建设存在的问题及发展思路。