论文部分内容阅读
随着各种文本数据源的激增和用户对知识内容深层挖掘的需求,文本知识挖掘的研究正在兴起。由于文本具有区别于一般数据库信息资源的半结构化特性,计算机很难理解和处理,必须利用与传统数据挖掘方法相异、有针对性的分析方法以获得对文献内容的全面而深入的理解。因此,探讨共现分析的理论及其在文本知识挖掘中的具体应用有着极其重要的理论和实践意义。 首先,本文论述了文本知识挖掘的定义、一般过程、主要任务、基本方法和主要研究课题。并从理论上深入探讨了共现分析方法,系统地总结了该方法的定义、类型、方法论基础及一般研究流程。在此基础上,提出了共现分析将对文本知识挖掘所起的三方面作用:为文本知识挖掘的一般处理过程提供语义支持、从词汇关联角度发现有趣的知识模式、作为挖掘文本知识的有效手段;然后,从作为文本知识挖掘有效手段的角度出发,本文研究了共现分析在基于空间分布、时间分布和内外关联映射的文本知识挖掘中应用的思路和典型案例;提出了利用共现分析挖掘文本知识的适用范围及一般操作流程,并对操作流程中影响分析结果的主要问题进行了深入分析;再次,以上述研究成果为方法论,以中国期刊全文数据库中“航空发动机”(2001—2005年)类目下的1273篇学术期刊为实例,进行了文本知识挖掘的应用探索。经研究发现:在空间分布上,航空发动机领域的研究主要集中在燃烧系统、控制、压气机、喷管、涡轮几大知识热点,其中燃烧系统始终处于该领域的核心;在时间分布上,通过五年的分析数据比较得知,除燃烧系统之外的其它研究问题通过拓宽研究范畴、增强研究深度,都有向领域中心靠近的趋势。另外,航空发动机领域的知识结构相对固定,在短期时间内不太可能发生太大的变化,可能出现的是研究侧重点的微调;最后,本文总结了利用共现分析挖掘文本知识的新趋势,并指出了发展的方向。