论文部分内容阅读
随着互联网的发展,电子商务逐步发展起来,因此为个人和企业提供网上交易的电子商务平台应运而生。电子商务平台需要准确理解买方的搜索意图,并展现出相应的商品。为达到这个目标,电子商务平台逐步转入语义关系的研究,而同义关系是语义关系不可或缺的一部分。电子商务领域的同义词是指对同一事物或者概念的不同表达,即在商品描述检索中可以相互替换的词,有新词多、错别字多、定义严格的特点。这些特点使得现有同义词识别方法在电子商务领域效果不显著,同时给同义词的识别带来更大的困难。本文重点研究电子商务中卖方用户和买方用户行为特点,提出了基于电子商务用户行为的候选同义词集合产生方法,包括候选集合的获取和过滤两部分。一方面通过并列关系的符号切分标题从标题中获取候选集合,另一方面通过SimRank思想聚集查询从查询中获取候选集合。之后将候选集合分为中文-中文词对和英文-中文词对两大类。最后对中文-中文词对运用一系列的规则进行过滤,对英文-中文词对运用同义概率进行过滤。在候选集合生成之后,就进行同义词的识别。根据电子商务中英文-中文同义词的特点,提出了读音相似度法、谷歌翻译法、同义概率法等三种识别英文-中文同义词的方法。并重点研究了用于机器学习方法的特征提取,特别是标题、查询、点击等体现用户行为的特征的提取,并运用梯度下降决策树模型和支持向量机模型来进行同义词的识别。实验表明,读音相似度法可以有效识别音译的英文-中文同义词,谷歌翻译法可以有效识别意译的英文-中文同义词,同义概率法可以有效识别高频出现的英文-中文同义词。在梯度下降决策树模型中,加入标题、查询、点击等用户行为特征比单独使用字面特征准确率提高了约25%,召回率提高了约24%,F值提高了约30%。对比梯度下降决策树模型和支持向量机模型发现前者在各个方面效果都好于后者。