基于网络影评文本的关系图谱系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:risk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电影产业的迅猛发展,二者结合越来越紧密,电影推荐服务也应运而生,为用户在海量电影资源中做出合理选择提供了参考。当前业界主流的推荐服务主要依赖于不同电影之间关系的挖掘以及用户画像模型的构建。推荐系统根据用户以及相似用户的行为和特征,同时参考电影之间的关联关系,即电影间的关系图谱,为用户提供个性化推荐服务。然而,现阶段获取电影之间的关系图谱主要参考电影本身的标签特征,这种方法受标签特征数目以及特征粒度的影响,得到的电影关系图谱的置信度不高,降低了个性化推荐服务的准确性。网络影评包含了观影者丰富的情感和倾向,也包含了在语义和情感层面上不同电影的关联程度。本文以网络影评作为切入点,从文本中挖掘电影之间的关系。构建基于语义和情感倾向的电影关系图谱,则可以在挖掘电影间关系这个问题上降低对特征标签的依赖,从新的角度计算电影之间的关联程度,以此作为原有方法的有效补充,从而更好地为个性化推荐等后续服务提供参考和借鉴。本文以网络影评文本为研究切入点,基于pragraph2vec计算电影间的关系相似度,从而构建基于网络影评文本的电影关系图谱。本文主要工作总结如下:1.介绍了网络影评数据的获取方法和过程,包括种子链接和网络影评正文的抓取,以及如何高效应对目标网站的反爬虫策略,构建了一套基于轻量级爬虫框架Scrapy的网络影评数据获取系统,为整个系统提供了可靠的数据来源。2.在完成影评文本数据获取的基础之上,介绍了分词、构建词汇表和哈夫曼树等文本预处理方法。并针对本文应用场景,对文本预处理的过程进行了大量的优化和改进,为后续向量计算奠定了基础。3.向量计算部分,向量计算包括词向量计算和段落向量的计算。针对网络影评文本的特点以及特殊性,本文对词向量和段落向量的计算作出了相应的优化。采用模型融合的方法计算词向量,同时使用词性加权的方法改进了现有的文本向量计算方法,使之更加高效可靠。4.向量计算的基础之上,完成电影的关系图谱系统构建。为了验证本文的模型和方法切实可行,本文引入了传统的文本向量计算方法LDA (Latent Dirichlet Allocation,隐含狄利克雷分布)主题模型来计算网络影评的向量,并在LDA主题模型的基础之上构建关系图谱。经过实验验证,文本引入和改进的文本向量模型,在效果上比基于LDA主题模型的计算方法提高10%。
其他文献
金针菇丛枝病的典型症状是只长茵柄不长茵盖,俗称针尖菇,是一种非侵染性的生理病害。
为有效指导配电网自动化系统的建设,分析中国配电网存在的问题和配电自动化建设过程中遇到的难题,在此基础上,提出解决问题的基本原则和思路。通过分析配电自动化系统建设过
患儿男,8岁.于2005年8月中旬开始出现食欲减退,体质量下降,消瘦,面色苍白,右腕关节肿胀、僵直不能活动,时轻微干咳,伴无诱因低热、乏力、盗汗.在外院就诊达1余年.按"风湿性右
随着我国盐渍土程度的日益加剧,如何分析不同盐渍化土壤形成原因以及提高植物耐盐的研究越来越受到重视。因此,本研究以天津滨海地区盐碱土作为研究对象,从季节和空间上系统
<正> 自改革开放以来,如何改造好旧城,成为泽国镇党委、政府的重要议题之一,尤其是泽国镇被列为全国小城镇建设试点镇后,镇政府把重点地段旧城改造列为试点工作的重点项目。
<正> 当我们正在竭尽全力地消除噪声、空气、水源等环境污染对人类生存环境的影响时,危及人类健康与生命的新威胁——电子污染,又悄然地向人们袭来。荒唐离奇的怪事 20年前,
<正>以《商业银行中间业务暂行规定》为起点,我国政府从2001年开始放松对商业银行开展投行业务的管制,各大商业银行逐渐开始将开展投行业务作为自身业务调整和开展多元化经营
ABS硬塑玩具用云纹抗菌色母粒由抗菌底色母粒和云纹色母粒组成.本文通过实验确定制备ABS硬塑玩具用"蓝天白云"型云纹抗菌色母粒的优化配方为:抗菌底色母粒中载体树脂为80%,色
<正>2015年伊始,央行排名第一的副行长胡晓炼离开央行,履新中国进出口银行,出任董事长一职。从事30多年外汇管理及央行管理工作的胡晓炼突然"下海"去执掌一家银行,这次重大人
磷矿石是磷化工产业的主要原料之一,我国约80%的磷矿石用于制取磷肥。我国磷矿资源虽然丰富,但多是中低品位硅钙质胶磷矿,随着磷肥业和磷化工产业的快速发展,高品位磷矿越来