中文文本多粒度情感分类计算的研究

被引量 : 0次 | 上传用户:newtonmark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分类及判别是通过自动划分评论中肯定或否定的意见去挖掘对于某一产品的客户意见,并对其进行褒贬性的判别分类。文本中涉及到情感分类的对象一般有词汇、句子、段落以及篇章。而汉语语言的复杂性往往使词汇、句子及文本的情感检测研究面临很多的困难。由于在文本情感分类计算领域中,通常对各粒度层面的研究方法都不同,而且对涉及到某些语言学中情感因素的知识理解还不够详尽,从而造成对某些研究对象的情感判别出现与主观判断不符的情况。因此,本文首先在知网的基础上,对词汇语义倾向计算方法予以改进,并且根据语言学知识扩展了影响情感的各种因素。最后,对中文句子主题抽取与极性判别方法进行了详细的方法改进,并提出运用搭配规则匹配算法进行句子情感倾向的计算。以下是本文的主要研究内容:(1)在知网理论前提下,对基于中文的情感词汇倾向计算方法进行了改进。具体解决了知网中概念义原描述错位及出现概念歧义的问题,这一部分的工作有利于后续进行句子情感倾向的判别。(2)提出了对句子情感倾向影响因素的考虑及定量分析。首先将否定词进行扩展,并搭配语义倾向词汇对具体的修饰极性进行定量,更进一步研究了中文句子中否定共享问题,以及否定比较句中情感极性的转移问题,因为这些因素往往影响着复句结构中情感的倾向度。其次,对感叹句进行了详细的分析研究,分别从感叹词与搭配规则入手,从语言学角度出发,对可能出现的各种感叹句形式及表述予以情感分析。(3)改进了句子极性判别的具体方法,不再单纯依靠依存结构中的句法结构关系来转移极性值,而是根据定义的依存结构关系先对句子主题进行抽取,再考虑依存语法距离和修饰词极性对句子极性的影响。然后对句子进行否定规则匹配,使得句子层面的极性判别更为准确。其次,在词汇、句子情感倾向研究的基础之上,对中文文本情感倾向进行了具体的分析计算及设计应用。最后,针对本文提出的词汇、句子情感倾向所采用的方法,对系统进行了测评,并与其它基于知网的研究方法进行实验比较,结果表明本文提出的方法的有效性,且情感分类的准确率和精确率均有所提高。
其他文献
复方作为中药临床用药的主要形式,集中体现了中医药理论“辨证施治”的思想和治疗原则,而复方作用物质基础研究一直是中药研究的热点和难点。对药作为复方和单味药之间的桥梁
通过GC-MS分析技术,研究了环境温度与汾酒酒体间的关系,发现随着环境温度的升高,导致酿造出酒率下降,酒体总酸、总酯、各种微量成分发生规律性的变化,并由此可知,汾酒优质高
通过应用GC-MS、ICP-MS分析技术,研究了汾酒陶缸贮存过程中酒体香味成分、总酸、总酯、乙醇、金属离子等各类物质的变化规律,发现汾酒贮存过程中,各类微量成分呈明显的规律性
本文对新疆暨兵团第一家村镇银行——五家渠国民村镇银行有限责任公司(以下简称村镇银行)成立以来的情况进行了调查,肯定了村镇银行在兵团农牧团场经济发展和改革过程中不可
本文研究始自对文化遗产学这门新兴学科建设中存在问题的关注。其问题主要体现在五个方面:一、学科未建立,专业未独立;二、学科定位不明;三、学科研究范围不清;四、理论尚未确立;
《第二十二条军规》是美国作家约瑟夫·海勒的名作,同时也被誉为美国黑色幽默小说的开山之作。自问世以来,国内外的英美文学研究者虽已对其从多角度进行了解读和研究,然而却
商业插画市场的拓展使得现今插画的运用领域得到了极大的扩展。在材料与技术的迅速发展下,插画作为一个学科也在不断的吸收新的血液。现今插画更强调了一专多能的重要性,这令
农垦经济是随着经济发展而逐步形成独具特色的地域经济综合体,是基于偏远落后地区的经济发展、维护民族团结和边疆安全等特定社会需求的历史产物。新疆兵团(以下简称新疆垦区
颅相学是19世纪前期流行的一种心理学假说,主张人的心理与特质能够根据头颅形状来确定。颅相学因符合当时科学文化氛围而广泛传播,但不久后受到宗教权威和科学实证的阻击。20