RDPA:一种基于表型文本数据的疾病—表型关联预测算法

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:yangy1225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的发展,利用人工智能(Artificial Intelligence,AI)技术在医疗相关行业进行研究成为了时下最热门的话题。但是在罕见疾病研究领域,由于受限于罕见疾病数据的相对稀少和发病机制复杂的特性,目前人们还没有找到一个高效可靠的算法来对罕见疾病进行预测和辅助诊断。本文针对这一问题,提出了RDPA预测算法(Rare Disease-Phenotype Association Prediction Algorithm)作为问题的解决方案。该算法分为两部分,首先是以经典的TF-IDF算法为基础,针对罕见疾病数据将算法进行了相应的改进,从而实现预测表型和疾病之间一对一关系的关联度的功能。之后本文在前一步的基础上利用融合算法将表型和疾病之间一对一的关系进行融合,进而得到表型和疾病之间的多对一关系,从而使得RDPA算法实现了对多表型疾病进行辅助诊断的功能。通过将RDPA算法与其他常用的预测算法(TF-CRF和TF-IDF-CHI等)进行比较,本文发现,RDPA算法相较于其他的预测算法有着更好的性能,具有更高的精确度和稳定性。此外本文还对RDPA算法在训练集上的表现进行分析,为算法的使用者提出了具体的使用建议。通过对RDPA算法在训练集和公共数据集上取得的结果进行分析,本文得出结论,RDPA算法是一种行之有效的罕见疾病预测算法,并且有着广泛的应用空间,为广大研究人员提供了一个高效可靠的辅助诊断算法以供选择。
其他文献
随着使用年限的增加,短波发射机开关电源会出现故障及损坏的现象,影响短波发射的质量。本文围绕2k W短波发射机开关电源展开论述,分析其电源原理及日常维护,希望能为该方面提
汉语听力作业作为汉语听力教学的重要组成部分,长期缺乏理论指导,且单纯以提高学生考试成绩为目标。作业内容大多枯燥无味、形式单调,不仅增加了学生的负担,而且也一定程度上
今天我想以我国文化产业集聚发展的特点和趋势为话题来探讨中国文化产业发展的特点和趋势。我认为可以用“五个发展”对中国文化产业的现状做个概括,就是集聚发展、数字发展、
报纸
烷基糖苷是一种生物来源非离子表面活性剂,具有高表面活性、良好的生态安全性和优良的配伍性。现有的用于石油开采的泡沫体系存在泡沫稳定性欠佳、存在污染地层隐患等缺陷。
<正> 容器(罐)是炼油装置必不可少的设备之一。炼油装置常用容器按用途分大致有下列三类: 一、气液分离容器这一类容器用来分离气体和液体。属于这类容器的有油气分离器、蒸
19世纪末20世纪初,中国处于社会大变革时期,贵州亦如此。位于贵阳市的达德学校从最初的算学馆正式发展为达德学校,达德学校在办学中不仅重视知识教育,而且也很注重师生思想教
党的十八大以来,以习近平为核心的党中央提出了打造人类命运共同体的国际政治新理念,这是当代中国共产党人在实现中华民族命运共同体伟大复兴进程中对世界政治发展方向做出的
最近,在英国的葡萄酒消费者中进行的一项调查显示,37%的消费者更善于接纳一些另类葡萄酒包装,尤其是PET塑料瓶和盒中袋包装,也有部分人表示喜欢Pouches和Tetra Paks包装,但是没有人
实现现代化,是中国共产党创立以来长期追求、一直不变的主题。新中国成立70周年,是中国不断实现现代化发展的70年,也是中国共产党人对马克思主义政治经济学进行理论创新并指导中
报纸