基于内容的文档推荐方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:DUOFIPAUT8E
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐算法是解决信息过载问题的重要途径,主要可分为基于内容的推荐、协同过滤推荐和混合推荐三种。协同过滤推荐能充分利用用户群体决策信息,给出的推荐结果十分准确,是学术界重点研究的方法。但是协同过滤分析依赖大量的用户行为记录,在用户尚未与推荐系统产生过多交互时难以给出推荐结果。此时基于内容的推荐算法便能成为有效补充。基于内容的文本推荐主要研究文本之间的相互关联,通过提取文本特征找到彼此之间的相似性。研究从建立文本的可计算表达形式出发,展开了以下工作:(1)在现有的文本嵌入方法中,存在向量表征稀疏或者上下文信息获取不充分的问题。为此提出了一种全新的基于深度学习的文本表达方法DocNet,对文本的表征形式作出了改进。借助于深度神经网络对复杂映射关系的学习能力,在保证充分捕捉上下文信息的情况下学习到稠密的向量表达,所以同等向量维度下蕴涵比TF-IDF、LDA等方法更多的信息,并且可捕捉到Word2vec平均法会忽略的上下文关联特征。此外,不同于传统的瓶颈层嵌入方法,DocNet提出了一种端到端的直接嵌入方法,能通过调参的方式权衡信息量与向量维数,可以对文本区分粒度进行手工调整。(2)在召回层引入粗粒度的DocNet和精简的TF-IDF,使得初步筛选过程能够引入更多的上下文信息提高召回率。使用该方法的向量稠密,减少了计算开销。此外建立了一套特征工程方法,使用细粒度的DocNet提取文本内容特征,结合抽取到的半结构化文本元信息特征一并引入排序层,最终配合LR、TG与FOBOS优化方法计算出精确的排序结果。(3)总结了工程上的落地方案和优化技巧。以新闻组文本为推荐目标,建立了一个简易的推荐系统实例,将提出的算法整合成完整应用。对DocNet的性能、改良推荐算法的有效性以及整合后的推荐服务可用性分别进行了实验,选用了20-Newsgroups与路透社新闻数据集。实验证明了DocNet在文本聚类任务的NMI指标上对比基线方法有4%的提升,证实了其文本表征能力。在使用TG优化方法的推荐算法中,AUC达到了0.741,m AP@5与m AP@20分别达到0.73与0.87,证实了其良好的推荐效果。
其他文献
在商业合作需求日益增加的当今,在线协作平台已经成为企业必备的应用系统。特别对于大型跨国企业,主营业务不一定主要是信息技术方向,但需要IT信息系统的强大支持以实现全方
环境的可持续性是当前正在出现的全球性问题。尽管可再生能源具有巨大的能源产生潜力,但与这些能源有关的各种问题仍需要解决。在这样的背景下,新兴的绿色能源技术逐渐发展起来。它是一种针对环境的治愈技术,涵盖了大范围的材料和方法,从而将能源产生转化为无毒,清洁和绿色的产品。因此,新兴的绿色能源技术在环境保护方面起着越来越重要的作用。本翻译任务可使我国了解西方先进的新兴能源技术,促进中西方新兴能源技术的发展。
目的干燥综合征(Sj?gren’s syndrome,SS)是一种慢性自身免疫性干眼类型,主要侵犯唾液腺和泪腺,表现为口、眼干燥,病情严重者可最终丧失功能视力,极大的影响人们的生活质量。SS发病机制尚未完全明确,目前仍缺乏有效的治疗方法。间充质干细胞(mesenchymal stem cells,MSCs)是来源于中胚层的多能干细胞,具有低免疫原性及免疫抑制特性,已用于系统性红斑狼疮(System
目的胶质瘤是成人最常见并且最致命的原发恶性脑肿瘤之一。尽管结合手术、放疗和化疗等综合治疗,但最具侵袭性的胶质母细胞瘤(glioblastoma multiforme,GBM)病人的平均中位生
梁结构是工程中的应用广泛的构件,它广泛存在于工程领域中,比如可伸缩机翼、伸缩太阳帆板等。对于梁结构,实施有效控制,对于由振动引发的结构失稳以及由振动带来的工作精度影
计算机的飞速发展和互联网的广泛普及,使得人们可以通过互联网进行交流和沟通。微博作为当前盛行的社交工具之一,网民通过平台可以随心所欲地表达对各种社会问题的态度和意见。随着互联网用户规模的不断扩大,微博作为信息传播的工具经常被使用,造成复杂的网络信息环境、不同类型的数据呈现爆炸性的数据增长,尤其是突发事件网络舆情。网络舆情是人们面对互联网上突发灾害事件的真实反映,可集中体现出网民对社会舆情的关注。网络
解决远海海况监测传感器设备供能问题是当前研究的关键技术之一。将海洋波浪能转换为电能直接为传感器供能,压电换能形式结构简单适合于小型能量转换装置,可以有效解决海洋传感器远距离供能和信息传输问题,波浪驱动压电发电为新能源的利用探索提供新思路。海浪驱动压电装置的激励频率低、发电效率低,本文提出一种基于涡激提频的波浪能驱动压电能量转换装置,将低频的波浪能转换为高频的激振空气压力,作用在压电振子上实现能量的
海量的移动应用(Mobile Application,App)为人们的生活提供了各种触手可及的服务。然而,移动应用碎片化明显,通常专注于特定功能并且彼此孤立,这导致了用户不得不手动协同多
目的:听神经瘤是颅内神经鞘瘤中最多见者,约占颅内神经鞘瘤的90%以上,占颅内肿瘤的8%~10%,占桥脑小脑肿瘤的75%~95%。流行病学发生率为1/10万。发病多见于成年人,有报道发病
近年来网络传输技术的高速发展,使得视频文件的传输方式越来越便利应用场景越来越广泛。然而这些技术在为人们提供便利的同时却让许多数字产品的所有者的权益遭受了巨大的损