【摘 要】
:
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随之增长,但是具体生物蕴含的特定语义使得传统的搜索引擎失效,无法为医疗大数据提供搜索支持。国家863项目
论文部分内容阅读
随着生物医疗大数据的不断增长,用户对生物医疗大数据的搜索需求也随之增长,但是具体生物蕴含的特定语义使得传统的搜索引擎失效,无法为医疗大数据提供搜索支持。国家863项目“生物大数据表述索引、搜索与存储访问关键技术研发”就是为解决这个问题。该项目的核心是构建在由生物语义关系构建的生物网络中进行多关键字关联搜索的算法。生物网络中的关联搜索算法大多是以网络的最小斯坦纳树问题(SPN问题)作为算法基础进行设计,但是SPN问题本身时间复杂度很高,在大规模生物网络中不再适用。为此,本课题借用Spark计算框架,设计了针对生物网络的基于中心点的并行关联搜索算法(PAS-CN算法),并进行了实验验证。多关键字的关联搜索试图在生物网络中搜索到多关键字彼此之间的关联关系,从而找到可用于辅助医疗诊断的相关知识。生物网络是基于生物实体的关系而构建的,因此构建基于生物网络的最小斯坦纳树,就可以探索出这组关键字之间的关联关系。SPN问题是NP-hard问题,所以只能用近似算法求解。本课题利用生物网络的无标度特性对生物网络进行层次聚类,从而实现网络划分。并以此为基础设计了并行关联搜索算法,大大降低了时间复杂度,并且通过引入网络中心点成功控制了斯坦纳树的规模。本课题中对生物网络做了大量的预处理作为算法的基础条件,其中包含了层次聚类、网络划分、子网络中心点选取、最低公共祖先矩阵构建。本课题设计的基于中心点的并行关联搜索算法(PAS-CN算法)主要包含了3个部分:子网络划分、并行斯坦纳搜索和局部斯坦纳树合并。其中子网络划分和局部斯坦纳树合并部分都是Spark平台串行计算完成,并行斯坦纳搜索部分在Spark集群中并行计算求解。实验表明PAS-CN算法在运算时间和斯坦纳树规模的控制上都取得了很大的提升。
其他文献
随着信息技术的高速发展,数字图像已经成为了一种人们获取信息、感知自然和了解世界的重要媒介。在获取、传输和存储的过程中,图像都会不可避免地受到噪声信号的污染,这些噪
背景与目的:喉癌是头颈部常见的恶性肿瘤,发病率高且呈不断增长趋势,如果早期诊治可获得较好预后。肿瘤在很早期即可伴随分子标志物的改变,检测其含量变化有助于肿瘤的早期发
肾癌肾静脉及下腔静脉癌栓的发生率约为4%~10%,甚至可达右心房。因手术风险大且预后差,多数患者放弃手术。近年随手术技术提高,对此类患者积极行肾癌根治术同时彻底切除下腔静
进入新世纪以来,随着电子设备的体积在逐渐减小,而工作频率却在急剧增加,这导致电子设备在有限的空间内产生更多的热量,因此及时散热能力已成为制约电子器件使用寿命的重要因
随着大众创新、万众创业热潮的开启,互联网技术不断提高和升级。继云计算、物联网后,应运而生的大数据时代所带来的数据资源的开发和应用对企业产生的影响不容小视。互联网时
非法窃取网络虚拟财产行为定性存在财产犯罪的对象范围界定不清楚、网络虚拟财产的理论定位不明确、窃取虚拟财产的行为是否符合盗窃罪“打破并建立占有”的构成要件特征存在
以某缸内直喷发动机为研究对象,利用发动机实物在环仿真试验,对电子控制器的接口模拟器进行了硬件设计。基于DSP的接口模拟器以TMS320F28335为核心处理器,通过对电源模块、信
卫生部1996年4月3日下发文件,指出:随着医学科学的发展和人民群众日益增长的医疗卫生服务需求,一些综合医院都在积极创造条件建立康复医学科,但从管理上看,有些与康复医学科的要求不相符
在铸件生产中,铸造工艺的合理性是决定铸件质量、成本、生产及开发周期的最主要因素。充填铸型和冷却凝固是铸造成型过程中两个重要的环节,充填铸型是一种运动速度改变的机械
监理企业主要对石油工程的进度和质量进行监督。尽管在产品生产上不同于一般的制造企业,监理企业的信息化建设也随着计算机、网络、存储和通讯技术的发展日趋成熟。传统的监理方式存在“信息孤岛”,无法胜任对数量大、种类多、来源广且增长快的监理信息进行科学管理的任务。只有对数据、信息和知识运用现代化的管理,才能使监理企业的信息化系统运行良好,实现资源价值最大化。针对国内某石油监理企业基于Excel的报表系统,由