基于电子商务用户行为的同义词识别

被引量 : 0次 | 上传用户:WSLBCW
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,电子商务逐步发展起来,因此为个人和企业提供网上交易的电子商务平台应运而生。电子商务平台需要准确理解买方的搜索意图,并展现出相应的商品。为达到这个目标,电子商务平台逐步转入语义关系的研究,而同义关系是语义关系不可或缺的一部分。电子商务领域的同义词是指对同一事物或者概念的不同表达,即在商品描述检索中可以相互替换的词,有新词多、错别字多、定义严格的特点。这些特点使得现有同义词识别方法在电子商务领域效果不显著,同时给同义词的识别带来更大的困难。本文重点研究电子商务中卖方用户和买方用户行为特点,提出了基于电子商务用户行为的候选同义词集合产生方法,包括候选集合的获取和过滤两部分。一方面通过并列关系的符号切分标题从标题中获取候选集合,另一方面通过SimRank思想聚集查询从查询中获取候选集合。之后将候选集合分为中文-中文词对和英文-中文词对两大类。最后对中文-中文词对运用一系列的规则进行过滤,对英文-中文词对运用同义概率进行过滤。在候选集合生成之后,就进行同义词的识别。根据电子商务中英文-中文同义词的特点,提出了读音相似度法、谷歌翻译法、同义概率法等三种识别英文-中文同义词的方法。并重点研究了用于机器学习方法的特征提取,特别是标题、查询、点击等体现用户行为的特征的提取,并运用梯度下降决策树模型和支持向量机模型来进行同义词的识别。实验表明,读音相似度法可以有效识别音译的英文-中文同义词,谷歌翻译法可以有效识别意译的英文-中文同义词,同义概率法可以有效识别高频出现的英文-中文同义词。在梯度下降决策树模型中,加入标题、查询、点击等用户行为特征比单独使用字面特征准确率提高了约25%,召回率提高了约24%,F值提高了约30%。对比梯度下降决策树模型和支持向量机模型发现前者在各个方面效果都好于后者。
其他文献
以客户为中心时代的到来,使企业与客户的关系变得日益重要。管理思想的发展使越来越多的企业清楚的意识到客户资源才是企业经营最关键的资产之一,重视顾客需求,创造满足顾客
文章通过文献资料法、访谈法等科研方法,结合实际就大学生体育课堂学习中面临的心理障碍展开论述,分析其特点、成因,并提出相应的对策,以期对高校体育教育顺利的开展提供借鉴
陆人龙与陆云龙是晚明著名的出版商人,也是当时社会底层文人的代表,由于身份、地位的限制,创作和出版事业成为陆氏兄弟表达自己思想的独特形式。《型世言》创作于明清易代之
该论文在分析既有采暖居住建筑的现状基础上,找出寒冷地区既有住宅建筑节能存在的问题,提出寒冷地区既有住宅建筑节能改造的必要性和紧迫性,建立类似张家口市的寒冷地区既有
应急物资在应急管理工作中至关重要。如何科学整合应急物资需方与供方的信息、实现应急物资市场化运作是有效开展应急管理工作的前提。基于信息网络、以市场化为背景的应急服
<正> 中国似乎自古以来就不乏典型:从《三字经》中的孟母、孔融到“二十四孝”里的黄香、吴孟,可谓“江山代有‘典型’出”。然而作为我国新闻体裁的一个特殊品种,典型报道还
描述女性抑郁症的临床症状,并从遗传、生理、社会、心理等诸多因素进行分析,讨论女性抑郁症的影响因素。
混合性胶质瘤中最常见的是混合少突胶质星形细胞瘤,本文对1960~1982年经单纯手术切除(5例)和术后加放射治疗(66例)共71例幕上混合少突胶质星形细胞瘤病人的预后因素进行分析
唐代陆羽的《茶经》不仅是公认的世界第一部茶书,而且是一部杰出的散文著作,其语言文字和修辞手法的运用体现了很强的文学性。《新唐书·艺文志·小说类》、《全唐文·卷四百
<正>从前,古书里都这样记载:一位士子,身边跟着一个书童,眉清目秀,樱桃口,小蛮腰。姑娘是痴情傻,书生是天然呆,游学三年五载,都不知人家是女儿身。后来总会再出来一个女子,两