中文微博观点句识别及要素抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sisi_g
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一种新兴的文体受到了广泛的关注,在国内外多个评测的推动下,关于微博的情感分析研究已成为NLP研究领域的一个热点,微博平台上存在海量的观点性文本,可以通过对它们的分析,了解用户喜好,既有理论意义,又有使用价值。本文面向中文微博这一特殊文本,进行观点句识别及要素抽取研究,针对中文微博的特点,寻找合适的情感分析方法。由于观点句识别是要素抽取的前提,为保证其准确率,采用有监督的机器学习方法,使用SVM分类器结合一元词形特征对微博进行情感分类。文中对比了多种特征表示方法的分类性能,并利用信息增益减少特征集中的特征数目。实验表明,TF-IDF的权值设定方法更适合于中文微博的情感分类任务,在使用的特征数目为特征总数的20%时,其最高准确率达到95.54%。同时,本文比较了不同特征表示方法在单子句微博和多子句微博上的分类效果,结果显示,离散表示法和分布方式的句子建模方法在多子句微博中的准确率较高,而组合方式的句子建模方法更适用于单子句微博。在要素抽取方面,为了避免不同类别微博之间的相互干扰,首先利用LDA模型对语料进行主题分类,并确定每个类别的主题词;然后采用双层关联规则挖掘算法抽取其中的对象层及属性层候选频繁项集,在结构和语义两个层面上对频繁项集进行紧密度剪枝和可信度剪枝;制定筛选和定界规则,根据频繁项集获得每条微博的对象层及属性层要素;使用词的位置信息和点互信息对应对象层和属性层要素,并通过观点句识别的结果确定要素的情感倾向性。实验数据采用第六届中文倾向性分析评测所发布的数据,实验结果与2014年评测的最好结果基本持平,F值为23.83%,而对象层要素和属性层要素抽取结果均好于评测最好结果,F值分别为46.66%、46.48%。
其他文献
随着计算机技术和光电技术的发展,出现了一种新的检测技术--基于计算机视觉的测量技术,该技术是一种利用CCD摄像机作为图像传感器,综合运用图像处理技术进行非接触测量的方法,具
名词短语在句子中常常担任主语、宾语或定语等重要句法成分,其识别是自然语言处理领域的基础任务。汉语简单名词短语作为一种特殊类型的名词短语,兼具结构简单性和语义准确性
生物信息领域中,批量蛋白质同源性搜索和模体识别是当今的两个研究热点。本文针对批量蛋白质同源性搜索问题和模体识别问题,提出了基于聚类和压缩的批量蛋白质同源性搜索算法
随着生物信息技术的快速发展,海量基因组数据的涌现进入后基因组时代,研究者不再局限于研究单个基因的功能,而是希望以系统的角度理解维持生物生命活动的复杂生命过程,在这种
随着互联网技术的快速发展,移动互联网、智能硬件、大数据、云计算、人工智能以及020等新技术层出不穷,互联网技术已经应用到生活的各种场景中,极大地方便了人们的生活。在这
随着互联网的迅速普及,互联网已经成为一种新兴媒体,与传统的报纸、电视等信息传播媒介相比,网络上的信息传播时间短、突发性强、互动性好。尤其是互联网上发布的新闻信息更
随着网络的不断普及和发展,网络安全逐渐成为人们关注的焦点。其中特洛伊木马以其隐蔽性、破坏性、顽固性等特点已经成为网络安全的突出问题。木马的防御与检测也成为近年来
随着网络上信息资源的日益增多,搜索引擎的工作变得越来越困难。信息资源的无组织分布是导致搜索引擎工作不够理想的重要原因之一。本文的工作就是构建一个能使资源有组织聚合
我国历史悠久,文化遗产众多,其中文化遗存是重要的一部分。由于文化遗存是不可再生资源,并且遗存在发掘后也难于长久保存,在很多考古发掘项目中,往往由于考古人员的主观想法
传统的深度包检测采用简单的字符串匹配技术将报文内容与一组固定字符串进行匹配,但是随着检测的内容日益繁杂,这种检测方法已不能很好的满足要求,而正则表达式能提供更强的