基于意见挖掘技术的网购评论倾向性分析的研究与应用

被引量 : 3次 | 上传用户：edison2920

【摘要】

：

互联网的高速发展使得网上购物越来越盛行,这极大改变了人们的购物方式。而人们对商品及购物过程的感受,也从口口相传发展为以网购评论的方式来传播。网购评论,不论对于普通

【作者】

：

范英翔

【发表日期】

：

2012年01期

【关键词】

：

文本倾向性分析词性模式网购评论意见挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的高速发展使得网上购物越来越盛行,这极大改变了人们的购物方式。而人们对商品及购物过程的感受,也从口口相传发展为以网购评论的方式来传播。网购评论,不论对于普通购买者还是产品生产者都极为重要。本文力求通过从网购评论中分析、提取人们对商品的情感倾向,进而帮助消费者选择适合的商品,也帮助生产者有针对性地提高产品质量。基于意见挖掘的文本倾向性分析一般是将文档或句子看作词、短语或模式的集合,通过识别关键词、短语或模式,并计算其倾向性值,再将结果累加得到待分析文档或句子的倾向性值。文本倾向性分析一般通过数据采集、文本预处理、倾向性识别与判断以及结果展示等四个步骤实现。本文深入地研究了现有的文本倾向性分析方法,从京东商城上抓取网购评论数据,通过对数据的分析和统计,总结了网购评论数据的特点,进而提出基于词性模式的抽取和合并算法(POSEM算法),应用该算法抽取出训练数据集中的有效词性模式,再根据词性模式的特点,设计了模式匹配规则,最后,运用这些规则,从测试集中抽取出中心词和评价词,并实现了评论语句的倾向性判别。实验结果表明,本文提出的方法取得了较高的精确率和召回率。本文的主要工作如下：(1)本文结合现有的文本倾向性分析理论,对获得的网购评论数据进行了深入地分析和统计,总结了网购评论数据与倾向性分析相关的特点：评论句子中,形容词对倾向性判别的贡献最大,其在主观句中的数量与总数的比例最大,达到86.87%；名词、副词的贡献次之,比例分别达到71.64%和70.79%；其他词性,如动词、介词,对倾向性的分析也有重要的作用。(2)基于对网购评论数据的分析,本文设计并实现了基于词性模式的抽取与合并算法(POSEM算法)。该算法使用"POSTO"表示词性模式信息,并对词性模式的长度、在数据集在出现的频率和出现在主观句中的概率,分别设计了长度阈值、频度阈值和上下限概率阈值。其中,满足下限概率阈值的模式用于否定评论句子的倾向性。抽取算法从预处理后的训练文本数据中,抽取出满足全部阈值的词性模式。对于仅符合长度阈值和上下限概率阈值的模式,在保留模式中的中心词和评价词信息的前提下,合并算法尝试将其进行合并,以获得能够满足全部阈值要求的模糊模式。这样的设计可以在一定程度上提高倾向性分析的召回率。(3)基于对POSEM算法抽取到的词性模式的分析,本文设计了模式匹配规则,并从测试文本数据中识别出中心词、评价词,再利用以高精确率抽取得到的中心词和评价词来处理剩余的未处理文本,最后根据总结出的倾向性判别规则得到评论句子的倾向性。通过对实验结果的分析,本文提出的方法具有较高的精确率和召回率。(4)本文设计实现了一个通用的文本倾向性分析框架。该框架可以灵活地替换组件,以满足不同的实验需要。在预处理模块,系统为词性定义了统一的格式,当替换不同的分词工具时,只需要将其自定义的词性格式简单地转换为系统的格式即可。在文本分析模块,系统可以方便地替换训练、测试及应用组件。基于上述的框架,整合开源工具,本文设计实现了一个文本分析的原型实验平台。该平台集成了数据采集模块、文本预处理模块、文本倾向性分析模块和结果展示模块。

其他文献

论犯罪构成要件的逻辑顺序——以程序法与实体法的功能区分为视角

对于犯罪构成要件的逻辑顺序,我国现有的理论观点有:认定犯罪的顺序;犯罪发生的顺序;系统论的逻辑顺序;不同诉讼阶段不同的逻辑顺序;阶层式的逻辑顺序;类型化的逻辑顺序等观

期刊

犯罪构成要件功能实体法程序法逻辑顺序

蛋白质结构预测的理论方法及阶段

一直以来,蛋白质结构预测都是人们研究的焦点,综述了蛋白质结构预测的几种理论方法和不同阶段。

期刊

蛋白质结构预测理论预测方法预测阶段

带“不”的高程度义补语

带“不”结构作高程度义补语是现代汉语中普遍存在的现象。本文采用定性研究和定量分析相结合的方法,探讨了带“不”的高程度义补语在句法、语义和语用认知方面的使用规律,并

学位

带“不”结构高程度义补语共时描写语义来源

留学生习得连动式中“了1”位置的偏误分析及教学建议

本文主要研究留学生在习得连动式中“了1”位置这一语法时出现的偏误,之所以研究这个问题是因为在实习过程中我发现无论是在口语还是在书面语中,留学生们在此处常常犯错,而相

学位

连动式了1偏误对外汉语教学

绿色国民核算方法简评

期刊

绿色国民核算核算方法综述

架空线路碳纤维复合芯导线舞动特性实验

将风激励作用转换为导线长度的周期变化,对单档距架空线路碳纤维复合芯导线无覆冰时的舞动特性展开了实验研究。与实验研究对应,用两端简支柔索结构参数共振模型对横向风载激

期刊

碳纤维复合芯导线舞动无覆冰实验参数共振

体演文化教学法在美国中文词汇教学中的应用研究

伴随着汉语在世界范围内的快速传播,越来越多的美国人对学习中文以及中国文化产生了浓厚的兴趣,这不仅促进了世界文化之间的交流,并且对传播汉语起着推波助澜的作用。在汉语

学位

体演文化词汇教学美国中文课堂

哈萨克留学生学习汉字的偏误分析

汉字教学是汉语教学过程中最难以攻破的环节,也是汉语教学的重点,对学习汉语的外国学生来说掌握汉字的数量直接关系到学生的汉语水平,哈萨克语属于阿勒泰语系合普恰克语支而

学位

汉字书写哈萨克留学生偏误分析教学建议

民事诉讼法上的“利害关系人”之界定

因我国民事诉讼立法及相关司法解释对利害关系人的概念缺乏明确界定,学者们在注解相关条文中的"利害关系人"时亦见解不一,故难以厘清"利害关系人"与"当事人"、"案外人"等概念

期刊

民事诉讼利害关系利害关系人非讼案件执行程序

许昌市推进农民专业合作社规范发展的成效及措施

近年来,许昌市依托特色农业和传统优势,本着“加快培育一批、积极改造一批、努力规范一批、着力提升一批”的思路,采取“宣传引导、培育改造、规范提升、优惠扶持”等办法,大

期刊

农民专业合作社示范社农业产业化水平

基于意见挖掘技术的网购评论倾向性分析的研究与应用

其他学术论文