面向社会媒体的用户消费意图分析关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:snoopy10222001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络媒体技术的发展和普及,Twitter、新浪微博等社会媒体成为了最普遍的信息发布、传播和共享的工具。在这些用户生成的数据中蕴含着用户为了满足某种需求,在一定购买动机的支配下,表达出对某产品或服务的购买意愿,我们将此意愿称之为消费意图。消费意图分析,即针对用户表现出的这些购买意愿进行分析、识别、挖掘和推理的过程。面向社会媒体的用户消费意图分析主要包含两大类内容:其一是基于文本内容的消费意图分析,即用户明确表达了对产品或服务的购买意愿。基于文本内容的消费意图主要包含两个重要元素,分别是消费意图触发词和消费意图对象,这两种元素直接引发用户的购买意愿,是决定用户消费意图的重要特征;其二是基于用户偏好的消费意图分析,用户并未明确表达对产品或服务的购买意愿,可以通过用户行为信息等表现出对消费需求的偏好,来判断用户的消费意图。本文的研究工作涵盖了上面两类问题。我们充分利用互联网上丰富的文本数据、用户的群体智慧信息、词汇的语义知识库、以及用户的行为等信息源,结合机器学习、统计机器翻译和信息检索等方法,对社会媒体的用户消费意图分析这一问题进行探索。本文的主要研究内容可概括如下:1.基于特征迁移学习的消费意图语料获取。针对于社会媒体的用户消费意图分析问题而言,首先面临着缺乏训练语料的问题,而严重的数据稀疏问题导致人工标注语料的代价较大。为解决社会媒体中的消费意图语料获取这一问题,本章自动获取了互联网上用户生成的具有消费意图的异质文本,进而将消费意图语料获取看作为领域自适应学习问题。具体来说,本文首先提出了一种基于用户自然标注(查询-点击URL)的方法构建大规模源领域训练语料,解决了有指导方法需要人工标注的问题。其次,为了融合领域间相似性和差异性,引入了共享特征和特有特征的概念,使得从源领域训练的分类器可以直接分类目标领域未标注的数据,进而将特有特征嵌入到目标领域的训练中,采用自动生成大规模消费意图语料的方法来提高消费意图检测模型的性能。2.基于图排序的消费意图检测。以往基于有指导的消费意图检测方法大多依赖于人工标注训练语料,这种方法在实际中是相当费时费力的。为了充分利用标注数据和未标注数据共同提升系统的性能,本章使用了基于弱监督的图排序算法。该方法适用于总数据量较大、已标注数据量相对较小的情形中,并且可以使未标注数据和标注数据同时参与到图排序算法的学习过程中。本章将未标注数据和标注数据的关系描述为一个无向图,其中数据集中的每个样本表示图上的一个节点,每一个具有相似性关系的节点对连接成图上的一条边,利用图的结构将节点权重值传递给其相邻节点,以此来为每一个节点计算权重值,按照最终的节点权重值确定节点类别。此外,与传统的基于特征训练分类器来检测消费意图的方法进行了对比,实验结果表明,本文提出的基于图排序的方法获得了更好的结果。3.基于单语词对齐模型的消费意图对象抽取。消费意图对象,亦即用户在具有消费意图的文本中期望购买的产品或服务,是用户的消费意图得以满足的明确目标。消费意图对象通常是一个词序列形式的文本片段,消费意图对象抽取是将这样的词序列从具有消费意图的文本中抽取出来。本章将消费意图对象抽取分为两个步骤:(1)消费意图对象候选抽取;(2)消费意图对象修正。具体的,在消费意图对象候选抽取中,为保证消费意图对象抽取的完整性,本章提出在消费意图对象抽取中引入词对齐的搭配信息和触发词信息,在不需要人工干预的情况下有效地抽取出消费意图对象候选。进一步,通过引入限定域知识库对消费意图对象修正,从而提高消费意图对象抽取系统的性能。4.基于用户偏好的消费意图识别。不同于已有的基于文本内容的消费意图分析研究,提出了融合社会媒体用户偏好的消费意图识别方法。该方法将消费意图识别视作多标记分类问题,并综合使用了基于用户关注者的标签特征、领域标签特征、转发/回复行为特征以及用户性别特征等多种特征。由于融合用户偏好的消费意图识别难以评价,自动抽取了大量跨不同媒体的用户链指信息,利用该方法,共抽取出12万余对的用户链指。在此自动评价集上的实验结果表明,所采用的多标记分类方法对用户的消费意图识别是行之有效的,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。总之,本文一方面致力于解决基于文本内容的消费意图分析的问题,另一方面从融合用户偏好的消费意图识别的角度出发,将跨社区用户信息应用到消费意图识别任务上。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者提供参考借鉴。随着消费意图分析技术的不断完善以及大数据语料的不断开放,相信面向社会媒体的用户消费意图分析在未来会取得更大的突破。同时,消费意图分析技术的成熟也将促进其他相关研究的发展。
其他文献
结合典型铱金笔内衬杆结构案例,从尺寸、结构、装配方式等方面对铱金笔内衬杆进行论述。分析现有铱金笔内衬杆结构存在的优、劣势,从材料、结构的可延伸性、装配成本等方面综合
[摘要] 企业统计工作是对企业发展的内部和外部信息进行搜集和整理,对企业的生产经营情况进行统计调查和统计分析、提供统计资料、实施统计监督的过程。企业统计工作不仅是企业管理的要求,同时也要满足国家宏观经济管理的需要。本文阐述了企业统计的应用性的作用及准确可靠的统计信息,便于决策和管理者正确地把握形势,客观地剖析问题,从而做出科学的决策。  [关键词] 企业统计 数据信息 管理体制 国民经济核算   
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
自1881年Billoth实施了第1例胃癌手术以来,外科手术一直就是胃癌治疗的基本方法和主要手段。在胃癌高发的亚洲地区,日本的胃癌研究以及腹腔镜下胃癌根治手术的开展处于世界前列
1957年GUILLEMIN等首先为1例慢性胰腺炎行中段胰腺切除术(central pancreatectomy,CP)和Ω型空肠袢吻合术,1959年LETTON等对2例胰体外伤患者进行了CP,1988年Fagniez等将CP用于
伴随着社会网络的日益普及,网络商品与评分信息量迅猛增长。用户面对如此海量的数据无法进行快速而准确的选择,个性化推荐系统正是在这样的背景下提出的。传统的推荐算法只是
无源超高频射频识别(UHF RFID)技术可以在非接触的条件下实现对目标对象的自动识别,是物联网的核心支撑技术之一。阅读距离远、通信速率快、适应物体高速运动等优点,是工作于
患者女,37岁,主因阑尾切除术后2年右下腹疼痛2个月于2009年6月9日入院,2个月前患者无明显诱因发现右下腹部一包块伴疼痛,无恶心呕吐,无发烧,在当地医院行超声检查考虑为“腹腔异物