服装类商品属性实体识别与规范化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:maxchou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
服装类商品占据电子商务市场巨大份额,而针对的服装类商品属性实体识别的开放研究却较少。对服装类商品属性实体识别技术的研究,为电商信息检索、个性化商品推荐、广告系统、以及商业情报获提供了基础支撑,为实现电子商务中的商务智能注入了新的能量。当前电子商务领域的命名实体识别研究,主要集中于对电子数码类产品的实体识别上。  本文选择了服装类商品标题中用户较关心的品牌名、风格名、材质名、纹理图案名、局部特征名和商品名六类商品属性实体作为识别对象,对各类属性实体的尾字特征、提示字特征、组成结构以及用字在标题中的相对位置做了较详细的分析,在此基础上提出基于规则和条件随机场的属性实体识别方法,设计实验并对结果进行了分析。针对英文品牌名我们设计了基于规则的识别方法;针对中文品牌名、风格名、材质名、简单纹理图案名、简单局部特征名以及简单商品名,我们使用以字标注为标注粒度的条件随机场模型进行识别;针对纹理图案名、局部特征名以及商品名中的多词复合实体,我们根据其结构分别设计模板,在前面识别的基础上使用以词为标注粒度的条件随机场模型进行识别;针对以字为标注粒度的条件随机场模型进行边界识别困难的问题,我们引入新词发现中统计成词指标进行识别。通过与纯粹以字标注的条件随机场的识别方法进行比较,实验结果说明本文设计两种粒度的服装类商品属性实体识别系统,在识别性能上优于以字为粒度的条件随机场方法,验证了系统的有效性。  针对中英文品牌名混杂和商品名中命名不规范的情况,我们提出基于成对分布分析的实体规范化方法,在中英文品牌名实验中取得了98.10%的精确率;针对英文品牌名命名不规范的情况,我们提出基于编辑距离的规范化方法,在实验中获得了93.48%的精确率;针对商品名中的上下位关系,我们提出成对熵不对称性的识别方法,在找出的200个上下位商品名对中,精确率达到74.50%。
其他文献
根据参与决策的agent的行为,多agent决策通常可以分为两类:一类是所有agent之间都没有利益冲突的多agent集体决策;另一类是这些agent之间既有共同利益、又存在竞争关系的多agent
强化学习是一种从与环境交互中学习的机器学习技术,是目前机器学习研究中最活跃的方向之一。强化学习所面临的一个突出问题是大空间和复杂非线性任务带来的“维度灾难”问题。
手机游戏产业的蓬勃发展,使许多游戏爱好者希望能够进入这个领域,成为手机游戏的设计和开发人员。目前,市面上的手机游戏开发工具主要针对专业的程序设计人员,使用它们都需要编写
随着移动互联网的高速发展和智能设备的广泛普及,各类图像和文本数据在以前所未有的速度迅速膨胀,基于大数据的各种机器学习应用正在蓬勃发展。围绕机器学习算法中常用的距离
对于那些存在着服务提供方和服务使用方的信息系统,传统的服务提供方式在通讯安全、认证机制、访问控制机制、审计信息、服务收费、信任评估、系统监控、黑客入侵等方面存在着
在网络安全中,防火墙是建立网络边界、加强网络安全的重要设备。根据防火墙工作的层次和方式,防火墙上可以分成包过滤防火墙、代理防火墙。包过滤防火墙由于出色的性能而被广泛
本文对基于Windows的远程复制系统的开发进行了研究。文章针对当前的数据复制技术进行了研究和讨论,提出一个Windows平台下的远程复制系统(Remote Volume Replicator,简称RVR),
随着计算机软硬件技术的不断发展,多媒体技术的逐渐成熟,三维模型这种相对于二维图形、图像更加有表现力的媒体形式逐渐流行,并成为多媒体组成中的重要成员。虽然三维模型的创建
WebGIS——基于Internet的地理系统是将网络与地理信息系统相结合的产物,也是网络发展的必然趋势。将WebGIS应用于楼宇信息管理系统(BIS),采用B/S模式的体系结构,最终实现楼宇各
全球经济发展正在进入信息经济时代,知识经济初见端倪。但随着Internet、E-business的发展,信息系统安全问题越来越引起世界上各国、各行各业的人们的关注,它所涉及的范围非常广