论文部分内容阅读
随着网络媒体技术的发展和普及,Twitter、新浪微博等社会媒体成为了最普遍的信息发布、传播和共享的工具。在这些用户生成的数据中蕴含着用户为了满足某种需求,在一定购买动机的支配下,表达出对某产品或服务的购买意愿,我们将此意愿称之为消费意图。消费意图分析,即针对用户表现出的这些购买意愿进行分析、识别、挖掘和推理的过程。面向社会媒体的用户消费意图分析主要包含两大类内容:其一是基于文本内容的消费意图分析,即用户明确表达了对产品或服务的购买意愿。基于文本内容的消费意图主要包含两个重要元素,分别是消费意图触发词和消费意图对象,这两种元素直接引发用户的购买意愿,是决定用户消费意图的重要特征;其二是基于用户偏好的消费意图分析,用户并未明确表达对产品或服务的购买意愿,可以通过用户行为信息等表现出对消费需求的偏好,来判断用户的消费意图。本文的研究工作涵盖了上面两类问题。我们充分利用互联网上丰富的文本数据、用户的群体智慧信息、词汇的语义知识库、以及用户的行为等信息源,结合机器学习、统计机器翻译和信息检索等方法,对社会媒体的用户消费意图分析这一问题进行探索。本文的主要研究内容可概括如下:1.基于特征迁移学习的消费意图语料获取。针对于社会媒体的用户消费意图分析问题而言,首先面临着缺乏训练语料的问题,而严重的数据稀疏问题导致人工标注语料的代价较大。为解决社会媒体中的消费意图语料获取这一问题,本章自动获取了互联网上用户生成的具有消费意图的异质文本,进而将消费意图语料获取看作为领域自适应学习问题。具体来说,本文首先提出了一种基于用户自然标注(查询-点击URL)的方法构建大规模源领域训练语料,解决了有指导方法需要人工标注的问题。其次,为了融合领域间相似性和差异性,引入了共享特征和特有特征的概念,使得从源领域训练的分类器可以直接分类目标领域未标注的数据,进而将特有特征嵌入到目标领域的训练中,采用自动生成大规模消费意图语料的方法来提高消费意图检测模型的性能。2.基于图排序的消费意图检测。以往基于有指导的消费意图检测方法大多依赖于人工标注训练语料,这种方法在实际中是相当费时费力的。为了充分利用标注数据和未标注数据共同提升系统的性能,本章使用了基于弱监督的图排序算法。该方法适用于总数据量较大、已标注数据量相对较小的情形中,并且可以使未标注数据和标注数据同时参与到图排序算法的学习过程中。本章将未标注数据和标注数据的关系描述为一个无向图,其中数据集中的每个样本表示图上的一个节点,每一个具有相似性关系的节点对连接成图上的一条边,利用图的结构将节点权重值传递给其相邻节点,以此来为每一个节点计算权重值,按照最终的节点权重值确定节点类别。此外,与传统的基于特征训练分类器来检测消费意图的方法进行了对比,实验结果表明,本文提出的基于图排序的方法获得了更好的结果。3.基于单语词对齐模型的消费意图对象抽取。消费意图对象,亦即用户在具有消费意图的文本中期望购买的产品或服务,是用户的消费意图得以满足的明确目标。消费意图对象通常是一个词序列形式的文本片段,消费意图对象抽取是将这样的词序列从具有消费意图的文本中抽取出来。本章将消费意图对象抽取分为两个步骤:(1)消费意图对象候选抽取;(2)消费意图对象修正。具体的,在消费意图对象候选抽取中,为保证消费意图对象抽取的完整性,本章提出在消费意图对象抽取中引入词对齐的搭配信息和触发词信息,在不需要人工干预的情况下有效地抽取出消费意图对象候选。进一步,通过引入限定域知识库对消费意图对象修正,从而提高消费意图对象抽取系统的性能。4.基于用户偏好的消费意图识别。不同于已有的基于文本内容的消费意图分析研究,提出了融合社会媒体用户偏好的消费意图识别方法。该方法将消费意图识别视作多标记分类问题,并综合使用了基于用户关注者的标签特征、领域标签特征、转发/回复行为特征以及用户性别特征等多种特征。由于融合用户偏好的消费意图识别难以评价,自动抽取了大量跨不同媒体的用户链指信息,利用该方法,共抽取出12万余对的用户链指。在此自动评价集上的实验结果表明,所采用的多标记分类方法对用户的消费意图识别是行之有效的,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。总之,本文一方面致力于解决基于文本内容的消费意图分析的问题,另一方面从融合用户偏好的消费意图识别的角度出发,将跨社区用户信息应用到消费意图识别任务上。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者提供参考借鉴。随着消费意图分析技术的不断完善以及大数据语料的不断开放,相信面向社会媒体的用户消费意图分析在未来会取得更大的突破。同时,消费意图分析技术的成熟也将促进其他相关研究的发展。