论文部分内容阅读
近年来关于基因功能、基因和疾病关系的生物医学文献大量涌现,但因其数量之多、涉及范围之广,很难靠人力完成全部的阅读来发现其中丰富的生物学知识。同时,从事基因疾病课题的研究人员,要通过大量的实验和临床数据分析才能得到出课题结论或预测,研究周期长,人力物力投入大,而且每研究一种新基因或新疾病就要重复实验过程,知识发现过程缓慢。为了能够充分利用已有的研究成果,节省人力物力,需要将文本中的生物学知识抽取出来提供给研究人员,帮助他们快速了解基因或疾病,加快相关研究的进展。
我们开发的基因疾病关系数据库系统,利用生物医学文本挖掘工具,从系统自动下载的生物医学文摘中抽取基因、疾病、基因本体等信息实体及其相互关系,将这些数据存储到数据库中,把非结构化的文本数据转化为可检索的结构化数据。系统提供基因、疾病、基因本体等生物学实体关联信息的检索,以及关联信息原文原句的查询,使用户全面了解感兴趣的基因或疾病,帮助用户加速相关学科的研究。此外,系统具有可视化的串联检索功能,能够利用数据库中已有的生物学实体关系,对潜在的生物学实体关系进行深度挖掘,分析出新的生物学实体关联信息,为用户相关研究的进展提供帮助。
基因疾病关系数据库已存储了本体信息约330万条,2000-2003年基因疾病相关的文摘约10万篇,其中经过文本挖掘处理的文摘约10000篇,生物学实体关联信息约12000条,数据仍在不断增加中。经测试,系统具有良好的生物学实体关联性,能够发现潜在的基因、疾病、基因本体相互作用网络,挖掘出新的生物学实体关系,辅助形成生物科学研究创新假设。