【摘 要】
:
中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的
论文部分内容阅读
中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的采用传统方法对中医药数据进行存储和计算,这种方式扩展性不高且容易达到瓶颈。针对该问题,本文将有效结合大数据技术、机器学习及复杂网络等算法,对海量临床数据进行分布式挖掘,本文主要包括以下内容:(1)基于CDH(Cloudera’s Distribution Including Apache Hadoop)大数据平台,完成了对中医药大数据资源数据仓库的构建。首先,提出了一种自上而下和自下而上相结合的体系结构,使数据仓库的逻辑结构更加的清晰。同时,将多源数据采集到HDFS,分析其数据特点和相互之间的联系,设计了主题域模型和多维数据模型。然后,采用Spark、Hive QL等技术开发了ETL任务并通过Dolphin Scheduler配置了ETL工作流,完成了多源数据到数据仓库的映射,当前数据仓库包含的记录条数近3.4亿条,数据量约351GB。最后,采用Kylin针对方药主题构建了数据立方体,进行了多维OLAP分析示范研究。该数据仓库具有多源数据整合及数据处理等功能,具备Web多维分析和数据挖掘功能。(2)基于中医药大数据资源数据仓库,完成了对中医临床有效处方的分布式挖掘工作。首先,从数据仓库中抽取出慢阻肺病患者的临床诊疗数据形成数据集市。然后,根绝患者的治疗情况分为有效组和无效组,采用倾向性评分匹配方法消除两组间的混杂偏倚,针对有效组人群,提取其处方信息构建药物配伍网络并通过多尺度骨干网络算法提取核心药物子网,通过药物富集分析方法进行有效处方(P<0.05)发现,发现了165个有效处方,其有效比达到了80.88%,可作为治疗慢阻肺病的核心处方。最后,通过条件互信息法挖掘出有效药症知识。(3)开展了中药方剂配伍规律的分布式挖掘研究。为高效挖掘中药方剂中的关联规则,本文提出了一种分布式Charm算法,该算法基于Spark框架下,有效解决了传统方法挖掘效率低及内存溢出的问题。针对关联规则数量较多的问题,本文提出了一种分布式压缩算法,得到了更少的且更具代表性的关联规则,实验表明,得到的关联规则在临床上具有非常好的指导意义。
其他文献
文字是信息交流和文化传承的主要方式,其在人类社会中扮演着极其重要的角色。自然场景中的图像中通常包含了丰富的文字信息,准确而高效地提取这些文字信息有助于我们对图像及场景的理解。近年来,随着深度学习的发展,自然场景的文字检测和识别技术受到越来越多研究人员的关注。传统的自然场景文字提取技术通常分为两个独立的部分:文字检测分支和文字识别分支,这两个分支通常会被分别实现并执行,这种方式虽然看似简单,但也带来
随着互联网技术对众多领域的渗透,新型应用层出不穷,当前网络已无法满足消费者不断提升的低时延服务需求和无人驾驶、远程医疗等场景1~10ms的确定时延传输要求。提供确定性技术的方案分同步与异步两类,前者代表技术为时间感知整形器,与此相比,后者的异步流量整形器技术在时钟同步、带宽利用、对非周期时延敏感流的支持性等方面更有优势。在实际网络中使用异步流量整形器技术时,若不配以高效的调度机制,其适用场景将受限
互联网的高速发展推动着电子商务的蓬勃发展,各大电商企业为了让消费者充分享受电子商务的便捷之处,纷纷推出电商APP,但是浏览商品图片的购物方式已经不能充分地满足消费者的需求,并且APP下载安装流程复杂,这使得平台流失了不少用户。随着中老年用户的大面积触网,微信已经成为他们生活中不可或缺的一部分。该基于微信小程序的电商平台无需下载安装,操作便利快捷,微信强大的社交功能可以为平台获取大量的粘性用户。论文
图像目标检测技术是计算机视觉领域研究的基本问题之一,主要任务是在图像中对特定的目标物体进行定位和类别识别。现代目标检测技术大多基于深度学习方法,借助神经网络结构强大的图像特征学习能力,实现目标区域的类别预测和边框位置回归。然而该类方法仅利用视觉特征信息,而且独立地处理每个目标物体,缺乏对具体场景信息和目标之间内在关系的分析,因此整体检测精度受限,也难以适应复杂场景中多目标、多类别物体的准确识别需求
随着互联网的发展,数据呈爆炸式增长。网络中的数据有结构化数据、非结构化数据和半结构化数据之分,结构化数据一般以网络表格的形式呈现,相较于其他类型的数据,人们更容易从网络表格中发现感兴趣的信息。实体扩展是指,对于给定以实体列和属性名组成的查询表,将网络中的大量结构化表格作为数据源,对查询表所需要的属性值进行填充的技术。该技术在数据集成、信息检索等领域有广泛的应用。目前的实体扩展方法,主要通过模式匹配
涉密文件涉及国家利益、企业利益和个人利益,关乎国家安全、商业安全和公共安全,纸介质载体在涉密文件分发、使用和溯源过程中具有不可替代的作用,而使用数字水印技术是防止纸介质资料非法打印传播、追溯打印源的有效方法。基于数字水印的涉密文档溯源是当前信息安全领域研究的热点课题。但当前世界上的文本数字水印研究的字体多为英文,而汉字与英文在结构、笔画等方面都存在巨大差异,现有英文数字水印技术并不适用于中文文本,
在互联网时代里,Web应用需求越来越复杂,产品开发周期不断缩短,手工测试存在效率低、覆盖率低的问题,因此不少企业选择运用自动化测试工具进行回归测试。由于一些商用软件的价格比较昂贵,一般的互联网公司会选择使用开源软件开发出自己的自动化测试系统,可以在一定程度上提高测试的效率。同时,在测试工作中,性能表现对于Web系统而言尤为重要,而Web负载测试是确保Web系统性能的必要手段之一。通常,这些负载测试
随着互联网的快速发展,分布式系统因在其分布性、资源共享、可扩展性等方面的明显优势,成为了当前互联网的主流架构。分布式系统的应用涉及社会的各个领域,其安全问题影响着人们的生命财产安全,及时地发现系统中的安全问题至关重要。模糊测试是目前发现系统安全问题最有效的自动化方法之一。因此,研究对分布式系统进行模糊测试发现其安全问题的方法十分重要。分布式系统的模糊测试属于网络协议测试中的一种(远程访问服务)。目
机器人操作行为是机器人与外界交互的重要方式之一,逐渐成为机器人领域的研究热点,并且对机器人领域的发展具有重要意义。抓取行为是机器人操作物体的主要方式,但面对复杂且物体排列紧密的环境时,机器人仅通过抓取行为难以高效地完成操作任务,还需借助推动行为。推动行为可以为抓取行为创造空间,但二者的协同策略存在过拟合和采样效率低的问题,且缺乏有效的行为评价体系。为了使抓取和推动行为的协同策略对复杂而密集的物体排
随着21世纪信息技术的迅速发展,许多业务领域的企业与公司以及运营商都在提供线上产品服务,在客户量不断增长的同时,人工客服的需求量也在不断增长。智能客服问答系统可以以标准、精确和简洁的检索结果来回答大量用户使用自然语言提出的大量的重复或相似地问题,可以协助人工客服,减少大量的人工客服的工作量。因此,设计并且开发一套美人鱼智能客服系统是十分重要的。在此背景下,本论文研究设计并且实现了美人鱼智能客服系统