论文部分内容阅读
服装类商品占据电子商务市场巨大份额,而针对的服装类商品属性实体识别的开放研究却较少。对服装类商品属性实体识别技术的研究,为电商信息检索、个性化商品推荐、广告系统、以及商业情报获提供了基础支撑,为实现电子商务中的商务智能注入了新的能量。当前电子商务领域的命名实体识别研究,主要集中于对电子数码类产品的实体识别上。 本文选择了服装类商品标题中用户较关心的品牌名、风格名、材质名、纹理图案名、局部特征名和商品名六类商品属性实体作为识别对象,对各类属性实体的尾字特征、提示字特征、组成结构以及用字在标题中的相对位置做了较详细的分析,在此基础上提出基于规则和条件随机场的属性实体识别方法,设计实验并对结果进行了分析。针对英文品牌名我们设计了基于规则的识别方法;针对中文品牌名、风格名、材质名、简单纹理图案名、简单局部特征名以及简单商品名,我们使用以字标注为标注粒度的条件随机场模型进行识别;针对纹理图案名、局部特征名以及商品名中的多词复合实体,我们根据其结构分别设计模板,在前面识别的基础上使用以词为标注粒度的条件随机场模型进行识别;针对以字为标注粒度的条件随机场模型进行边界识别困难的问题,我们引入新词发现中统计成词指标进行识别。通过与纯粹以字标注的条件随机场的识别方法进行比较,实验结果说明本文设计两种粒度的服装类商品属性实体识别系统,在识别性能上优于以字为粒度的条件随机场方法,验证了系统的有效性。 针对中英文品牌名混杂和商品名中命名不规范的情况,我们提出基于成对分布分析的实体规范化方法,在中英文品牌名实验中取得了98.10%的精确率;针对英文品牌名命名不规范的情况,我们提出基于编辑距离的规范化方法,在实验中获得了93.48%的精确率;针对商品名中的上下位关系,我们提出成对熵不对称性的识别方法,在找出的200个上下位商品名对中,精确率达到74.50%。