基于Hownet的汽车领域产品评论挖掘方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:beehxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产品特征与产品评论对该产品的用户与商家都有着重要的参考价值,所以自动地准确地提取文本中的这类词汇变得十分有意义。本文在基于《知网》(Hownet)提取复合短语的基础上,结合汽车领域的文本特征完成了挖掘工作。复合短语作为语言中一种普遍的语法现象,以其结构稳定性强,表意完整单一,含有歧义较少的特点,近年来正逐渐为自然语言处理领域的研究者所关注。目前,对复合短语的研究范围主要集中在名词性复合短语识别和复合短语关键词的识别和处理上。本文主要研究如何利用Hownet来衡量词语的语义相关度,在此基础上完成了复合短语的挖掘与标注,最终基于词频、词性等因素完成了产品特征与产品评论的提取工作。在第一部分中,首先根据汉语词汇的特点对匹配词库做了切分。在基于词库切分之后,对切分结果做了除噪处理,去除了停用词,标点以及不能构成复合短语的单字词。第二部分中,首先对Hownet衡量语义相关度的算法进行了优化,建立了所需的复合短语备选集。然后在此基础上利用HMM算法完成了复合短语的标注工作。第三部分中,结合汽车领域内文本特征与已建立的领域知识库,采用基于词频、词性等因素的算法完成了产品特征与产品评论的挖掘。在完成理论研究的基础上,本文根据此理论进行了系统实施,并在本文最后对算法结果的准确率、召回率及F值进行了测试。
其他文献
电子商务作为一种新的商务形式,其在线交易匿名的形式、交易者身份识别、信誉识别机制的设计以及采用数字形式传递商品信息的新型信息传播渠道的特点,使信息与实物分离、商品与
随着信息全球化的到来,企业为了提高自身的竞争优势,在生产与经营过程中积累了海量的数据,然而如何从这些数据中得到有价值的信息是数据挖掘学科要解决的重点课题之一。粗糙
随着我国汽车市场的全面开放,许多国际知名的整车制造厂商以及相关的汽车零部件供应商已入驻我国,汽车产业已经成为我国的支柱产业之一。然而随着国内愈演愈烈的市场国际化和全
曲轴是发动机中承受冲击载荷、传递动力的重要零件,曲轴的再制造将直接影响着发动机整体性能的表现。以往对关于曲轴再制造的研究多侧重于对再制造工程技术的研究,对曲轴再制