论文部分内容阅读
在进入大数据时代的今天,如何有效地从海量数据中发掘和组织知识,构建知识网络已受到各个学科领域的广泛关注。构建领域的知识网络面临很多挑战,涉及到具体问题和技术方法的研究,知识间关系的发现正是其中的研究热点之一。中医药作为中华民族的文化瑰宝,在现代科技与学科交融的促进下,该学科领域已具有海量数据,构建知识网络的数据基础已经成熟。论文以“中国工程科技知识中心”项目为研究背景,针对中医药知识网络词库系统的建设,研究中医药知识间关系的发现技术。论文的主要研究内容包括:1.研究《中医药学主题词表》中主题词的关系结构,提出基于贝叶斯网络的药方病证主题词上下位关系发现方法,对采集到的相应专业词条数据进行上下位关系的分析,构建中医药学主题词上下位语义树,使主题词由原来的13605条扩充到146258条。经实验,方法的准确率和召回率都达到90%以上,表明方法可行有效。2.针对项目中的图书、百科等文本数据,研究药、方、病、证之间“治疗”、“表现”和“组成”三类关系的发现方法。特别是针对前两种关系,提出二种支持向量机和词向量相结合的方法进行关系的发现。对于“组成”关系,论文则采用基于字符串匹配的算法进行了发现。经实验,方法的准确率和召回率都达到90%以上,能较好地满足项目需要。3.设计与实现中医药词典平台,将上述方法发现的知识关系数据有机融入其中。该系统采用先进的Neo4j图数据库存储中医药关系知识网络数据,主要包括词条属性查询、词条关系查询、在线分词计算、在线分类计算、词条相似度计算等功能,已上线为用户提供服务。