基于知识的用户偏好抽取及其在产品个性化推荐中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wuyuetian530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言理解的研究是目前人工智能领域的热点之一,以此为核心的技术突破与相关模型的落地实现也层出不穷。目前,深度学习在工业产品订制中的应用尚未推广开,随着智能制造的兴起与互联网技术的进步,未来借助自然语言理解实现用户产品个性化推荐必将迎来更大的市场空间。为用户提供更好的个性化推荐,关键是要准确了解用户的偏好特征。计算机在理解用户偏好时首先要解决的是自然语言理解中出现的歧义问题。本文通过分析国内外自然语言理解、词义消歧、推荐系统研究现状,提出将词义消歧任务转换为深度学习文本分类任务的方法。通过该方法充分利用深度学习模型能够学习语料之间基本关系与语言特征的优势,规避在分析各种复杂的句子成分和关系中产生的问题,利用具体的数据集,验证了方法的正确性。本文首先对自然语言理解过程中各种句子层面和词语层面的歧义现象作了总结分析,并重点研究词义消歧现象,详细论证了知识在词义消歧中的辅助作用。其次提出利用BERT模型完成词义消歧的任务,为了验证模型的可行性并说明知识的辅助作用,本文设计了在词义消歧中辅助知识“领域+属性”的组成结构,增强了模型的语言表示能力。基于词语具有“一个义项一个领域”的鲜明特点,建立概念从属树,将待消歧词语的概念从属树从根节点到叶子节点的概念逐步细化,定位消歧词语所属的领域,以缩小知识的范畴。本文利用爬虫工具获取百科知识,应用到自己建立的机械领域数据集上,并将整理的数据,作为辅助知识的属性信息。句子中待消歧词语与辅助知识组成词语义项对的形式,将消歧任务转化为义项能否解释句子中待消歧词语词义的分类任务。接着针对BERT模型MLM任务随机mask汉字但忽略汉字之间关系的问题,本文将模型中基于汉字的“掩盖”替换为基于词语的“掩盖”,通过数据集的验证,模型的效果提升了两个百分点。最后,本文提出融合词义消歧的工业产品个性化推荐原型系统,设计原型系统结构,论述各个组成模块实现流程。将具体的对话实例应用到原型系统中,实现对用户需求先消歧,再抽取偏好,最后获得了良好的推荐结果,验证了模型的可行性。
其他文献
随着军事形态的不断演变与电子技术水平的不断发展,雷达作为战争中的主要信源,一直是该领域学者们的关注重点。在现代雷达系统中,其部件阵列天线备受人们重视。本文依托实际工程需求,设计了一款X波段阵列天线,该天线具有低副瓣、高增益、尺寸小、重量轻的优良性能,可在方位面形成和差波束,在俯仰面进行电扫描。本文在调研国内外研究现状及掌握相关基本理论的条件下,根据设计指标确定了天线的阵面分布及尺寸,包括行天线间距
极化(Polar)码是第一类被证明可达二进制输入离散无记忆信道(Binary-input discrete memoryless channels,B-DMC)对称容量的信道编码方案,自被提出后就受到学术界与工业界的广泛关注。SCL译码算法以及各种级联Polar码方案的提出,包括CRC-Polar码,PC-Polar码,Hash-Polar码等,有效地提升了Polar码的误码率性能,使其能够比肩L
随着现代科技的不断发展,基于雷达图像的舰船目标检测识别算法也层出不穷。经典深度学习目标检测识别算法虽然在精度上有着不错的表现,但其检测速率依然达不到许多军事应用的要求。而且由于雷达图像的特殊性,在实际应用中我们很难得到大量的雷达图像样本。因此,基于小样本的雷达图像舰船目标检测识别是一个富有挑战性也极具意义的研究课题。针对此课题,本文采用了生成对抗网络结合舰船目标三维电磁散射信息的方法,对舰船目标进
在偏远地区与“一带一路”沿线国家的边境地带,一直存在着通信基础设施匮乏、地域广阔而人口分布不集中的现象。随着“一带一路”的推进,更多的通信研究者注意到那些发生在跨境地质复杂区的自然或人为灾害,特别是那些对通信基础设施具有严重破坏性的不可控灾害,往往会加剧人民生命、财产的损失。监测设备集群能够持续更新、上传观测到的灾害信息,但这些地区并不适合部署监测设备集群。重大灾害发生后,如果处于这些区域的通信基
不论是军事领域亦或民用领域,导航的地位都在日益提高,人们对导航的依赖日益增强。其中捷联惯性导航系统(Strapdown Inertial Navigation System,SINS)由于其结构简单,设备容易集成,一经提出便迅速发展,已经在很多领域展开应用。SINS工作主要可以分为三步:传感器数据的校准、初始对准以及惯导解算更新。其中,初始对准是非常重要的一环,对准结果的精度直接影响最终的导航结果
作为移动通信不可或缺的重要领域,卫星通信的历史由来已久,应用前景广阔。其中,反射面天线因其高增益、功率容量大与结构稳定等优势一直是卫星通信中应用最为广泛的天线形式之一。常见的单反射面天线有前馈反射面与偏置反射面之分。近年来,系统化、多频段以及小型化需求逐渐成为反射面天线主要的研究趋势。而反射面天线的多频段化实际上就是对馈源系统的多频段工作要求。基于此,本文将馈源系统的多频段设计作为研究目标,以下是
近来,伴随着以Deepfake为代表的人工智能视频合成伪造技术取得的一系列成果,我们正在进入一个难以分辨真假图像的世界。人脸合成、面部身份互换、面部属性伪造和面部表情伪造四种人脸伪造技术正在广泛应用于视频类消费娱乐领域,但同时也在为虚假色情、假新闻、恶作剧和金融欺诈等方向不断提供支撑。伪造技术的各类负面应用引发广泛的社会担忧,检测假脸成为了学术界的热点问题。伪造检测领域中,深度学习已经成为在检测D
随着深度学习的发展,大规模的遥感影像和自然影像数据集让图像分割算法在更多领域得到应用,但是样本的多样性也给分割算法带来了一定的挑战,其中如何解决跨尺度特征融合以及多尺度目标分割一直都是学术研究的热点。考虑到现有基于深度学习的图像分割算法存在的问题,本文针对目标分割的难点,从特征提取网络、高分辨图像恢复、几何特征学习等方面提出了改进方法。主要研究内容如下:1、提出一种基于自适应提升小波融合网络的多尺
聚类算法是指根据数据的关联性,将相似数据划分至相同数据簇,而将相异数据划分至不同数据簇的过程。随着计算机深入到人们日常生活中,互联网上每天都会产出海量的数据,但这些数据大多数是不包含标签的。给这些海量数据做人工标注非常耗时费力,所以目前较为成熟的有监督学习算法面临着训练数据匮乏的问题。因此使用无监督学习中的聚类算法,根据样本之间的相似性对其自动分组具有非常重要的研究意义。传统的聚类算法只能提取数据
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)作为一种多载波调制技术,凭借高频谱效率与抗多径干扰能力等特点,在线性时不变信道中的性能优异。然而,OFDM在高多普勒扩展的时变信道(如高速铁路移动通信)中的性能会急速下降。正交时频空(Orthogonal Time-Frequency Space,OTFS)在高多普勒扩展信道中,其每个发送