论文部分内容阅读
产品特征与产品评论对该产品的用户与商家都有着重要的参考价值,所以自动地准确地提取文本中的这类词汇变得十分有意义。本文在基于《知网》(Hownet)提取复合短语的基础上,结合汽车领域的文本特征完成了挖掘工作。复合短语作为语言中一种普遍的语法现象,以其结构稳定性强,表意完整单一,含有歧义较少的特点,近年来正逐渐为自然语言处理领域的研究者所关注。目前,对复合短语的研究范围主要集中在名词性复合短语识别和复合短语关键词的识别和处理上。本文主要研究如何利用Hownet来衡量词语的语义相关度,在此基础上完成了复合短语的挖掘与标注,最终基于词频、词性等因素完成了产品特征与产品评论的提取工作。在第一部分中,首先根据汉语词汇的特点对匹配词库做了切分。在基于词库切分之后,对切分结果做了除噪处理,去除了停用词,标点以及不能构成复合短语的单字词。第二部分中,首先对Hownet衡量语义相关度的算法进行了优化,建立了所需的复合短语备选集。然后在此基础上利用HMM算法完成了复合短语的标注工作。第三部分中,结合汽车领域内文本特征与已建立的领域知识库,采用基于词频、词性等因素的算法完成了产品特征与产品评论的挖掘。在完成理论研究的基础上,本文根据此理论进行了系统实施,并在本文最后对算法结果的准确率、召回率及F值进行了测试。