基于知识图谱的软件众包服务的语义搜索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:meidoc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的发展和软件众包产业的兴起,日益增多的个人和组织使用众包平台进行软件服务众包,以达到节约成本、提高效率等目的。正确理解用户的搜索意图,并帮助用户挑选适合的服务,是众包平台的关键研究问题之一。但目前众包平台的服务搜索存在以下问题:(1)大部分搜索方法都是基于字符串的完全精确匹配,没有做到在理解用户语义基础上的“软匹配”。除非用户精准表达自己的搜索意图,否则基于字符串的精确匹配将无法得到用户想要搜索的服务;(2)平台由于多用图片展示服务内容,使得服务文本信息匮乏,这导致基于统计自然语言处理的语义搜索解决方案较难发挥作用;(3)与谷歌、百度等通用领域搜索不同的是,软件众包平台的搜索属于领域垂直搜索,要求具有对专业领域知识的理解,因此有必要引入领域知识来帮助搜索。在此背景下,本文面向软件众包服务平台,提出了一种基于知识图谱的语义搜索方法。该方法首先利用知识图谱中实体包含的丰富信息,如描述、属性、同义词、上下位词等进行语义扩展,对相关服务做一个初步的搜索召回;同时也结合知识图谱的实体信息来帮助增强词向量的表达,从词向量的相似度中获取到语义相关度特征;并构建主题模型,从主题概率分布模型中提取出主题特征。然后综合使用这两类特征,采用学习排序算法对初步召回的搜索结果进行重排序,使得更为相关的服务具有更高的排名。本文的创新点总结如下:(1)从软件服务数据,以及CN-DBpedia通用领域中文知识图谱、维基百科、百度百科、StuQ脑图等外部数据中构建了软件众包特定领域的知识图谱。(2)利用知识图谱中的实体信息,如描述,同义词,上下位词等,同时对用户搜索语句和服务描述信息做语义扩展,以解决用户搜索语句可能不能明确表达意图和服务文本信息缺少的问题。(3)利用知识图谱中的实体信息进行词向量的增强表达,将知识图谱中的语义信息融入到传统的word2vec词向量,通过增强的词向量构建语义相关度的重排序特征。(4)提出了基于自编码机的主题模型混合特征抽取方法,从主题模型中提取出多级主题的重排序特征。本文利用解放号软件众包平台的数据,进行了一系列实验。实验结果表明,本文提出的方法相对于现有的DSSM神经网络模型,在选取10个目标服务的情形下,精确率(P@10)、召回率(R@10)、MRR@10和NDCG@10搜索结果指标上分别提高了42.633%,42.633%,27.465%和34.977%。
其他文献
党的十八大以来,习近平总书记围绕加强国际传播能力建设、增强国际话语权、提升国家形象、提高国家文化软实力和中华文化影响力提出了一系列新理念新思想新战略,成为新时代文化"走出去"战略的理论指导和行动指南。中共中央统筹推动对外文化传播、文化交流和文化贸易,加快了中华文化发扬光大和走出去的历史进程。中国在国际传播能力建设、对外文化交流和对外文化贸易等领域都取得重大成就,大大提高了中国的国际话语权、中华文化
物联网的蓬勃发展和工业4.0的提出推动了现代工厂的智能化与自动化进程,而智能工厂对设备监控技术也提出了新的要求——非侵入式监测。射频识别(Radio Frequency Identification,RFID)技术作为工业中广泛应用的物联网技术,因其无源感知的优点也成为了普适计算领域中代表性的非侵入式感知技术,将其应用到工业新时代的设备监控系统中有着得天独厚的天然优势。为了解决机械设备异常或故障状
自改革开放以来,工业园区作为城市众多产业的空间物质载体,对于促进产业结构调整和产业集聚升级的承载作用显著;与此同时,工业园区也成了环境和安全风险事故的高发地。尤其是在环境保护作为国家重大战略的今天,对工业园区的环境管理问题日益突出,各级政府也陆续颁布了多项政策,推进工业园区的生态环境信息化建设以及工业园区的数字化智能化发展。但目前大多数的园区环境信息化建设与实际的环境管理需求是脱节的,系统仅针对水
软件众包因其开放式利用群体智慧解决问题的特点,在工业界和学术界受到众多关注。近年来,随着软件众包平台的不断发展,其用户量也呈现出高速增长的趋势,如何帮助用户挑选合适自己的服务商及服务,即构建一个优秀的众包服务搜索系统成为了各平台亟需解决的关键问题之一。为解决当前服务搜索系统未能充分利用包括用户评论在内的现有平台数据和未能对搜索结果精确排序的问题,本文提出了基于用户评论的软件众包智能搜索模型。通过对
Unikernel基于库操作系统技术,将单个应用程序与库操作系统组件编译为虚拟机镜像,可直接在KVM等虚拟化平台上运行,具有体积小、性能好、可针对化定制等优势,是一种有吸引力的针对云计算的操作系统设计。但Unikernel的一大缺点是缺乏多进程支持。最主要的原因是Unikernel是单地址空间设计,且运行在单个CPU特权级上。这大大降低了Unikernel的灵活性和适用性。多进程编程模型帮助应用程
近年来,区块链技术的出现和发展,为供应链领域遇到的鉴权和信息协同等方面问题带来极大的改善。供应链依托区块链的范式,采用私有链或联盟链的形式,利用区块链技术信用的易流转、链上信息难篡改、交易透明化等天然优势,逐步走向数字化智能化。目前,供应链领域合同依赖智能合约实现智能替代合同运行在区块链上,主要存在以下三个问题:首先,供应链参与方之间签订的纸质合同由于文本异构性问题,生成智能合约缺乏统一化描述;其
自然语言代码搜索在软件开发中起着重要作用,它允许程序员以自然语言进行查询,并从Internet或源代码库中获取代码片段。但是,在现有代码搜索方法选择和新技术研究时往往存在困难,因为(1)现有代码搜索方法的实现和评估它们的数据集通常是不公开的,无法选择适合当前场景的代码搜索方法;(2)有些代码搜索方法可能会利用训练数据集或辅助数据源,因此如果没有这些数据集/数据源,就无法真正实现搜索方法,并证明其有
近年来,随着深度学习的迅猛发展,自然语言处理已经成为了科学研究的重点领域之一。目前,基于深度学习技术来处理自然语言的研究工作主要集中在知识图谱、机器翻译、问答系统、文本分类等方向,然而关于将深度学习技术应用于自动生成文本摘要的研究工作少之又少。此外,在被称之为“互联网时代”的今天,文本信息的日生产量已然呈现出指数级地爆炸式增长趋势,面对数据量级超乎想象的文本信息,人类不再可能胜任从文本中提炼出其想
日志结构合并树(LSM-Tree)是一种写操作延迟极低的数据库存储结构,在现代数据库中应用越来越广泛。而随着互联网的发展,信息量增长迅速,业务需求也越来越复杂。这不仅要求同一个数据库能支持在线事务处理(OLTP),同时希望数据库能高效处理在线分析处理(OLAP)。这样的数据库叫做混合事务分析处理(HTAP)数据库。要让基于LSM-Tree的数据库支持HTAP,就需要解决其设计存在的两个弊端。其一,
软件众包平台采用公开参与的方式,吸引地理位置分散的开发者众包完成各种类型的软件开发与服务项目。但随着软件众包平台的发展,平台中项目数量的提升导致了开发者不得不花费大量时间从数量巨大、类型繁杂的项目中选择合适自己的项目。需求标注为这一问题提供了一种有效的解决方案。如果平台中每个项目都根据需求被标注了合适的标签,开发者或推荐系统则可以根据标签快速找到合适的项目,同时也有助于开发者快速了解项目要点,提升