学科领域本体学习及学术资源语义标注研究

论文部分内容阅读

随着互联网以及计算机软硬件的发展,学术资源从纸质化走向电子化,电子学术资源的数量非常庞大,并且不断增长。这一变革为研究者的学术资源获取方式和阅读方式带来了变化。首先,研究者通常要花费大量的时间在检索、筛选和浏览学术资源上,而Web 3.0时代语义网的提出,人工智能的发展,均要求学术资源导航及检索工具能够更智能地反馈检索结果,实现语义化检索;另外,研究者的时间是有限的,为了获得尽可能多的信息,研究者的文献检索目标不再是阅读全文,而是获取碎片化的知识点,并在文献的知识点以及知识点间进行链接。解决上述问题的关键是学科领域的本体构建以及学术资源的语义标注,本体具有良好的架构,提供了机器可理解的语义,支持检索扩展;结合本体对学术资源进行语义标注可以实现知识点间的链接,实现文献快速阅读的目标。但是目前少有中文学科领域的本体,鉴于手工构建费时费力,本文研究采用本体学习技术来构建学科本体。以往的本体学习研究主要是集中在一些特殊的领域(如生物医学领域)或是本体学习中的一些特殊的阶段,很少有针对学科领域的本体学习方法;另外,目前学术资源语义标注体系尚未成熟,还没有形成完整的学术资源语义标注的体系和架构。针对上述问题,本文的主要做了如下工作:第一,对本体学习的方法体系进行研究,并在此基础上提出了面向中文学科领域的本体学习方案。本文面向中文学科领域,结合语言学、统计学以及机器学习方法对本体学习中各阶段进行研究。在术语抽取阶段,提出了术语边界识别工作,研究了中文学科领域术语的词性构成规律,构建了统计术语排序模型,同时也引入回归模型将术语排序问题转化为预测问题来研究。在概念形成阶段,结合层叠条件随机场模型、统计和规则相结合的方法对不同的概念类型进行获取。在关系学习阶段,结合模板以及基于图的方法来获取概念等级关系,采用统计与规则相结合的方法抽取概念非等级关系。最后,本文通过实验对本文所提出方法与现有的方法进行对比,结果表明本文提出的方法具有优势。第二,为学术资源语义标注定义了元数据框架,依据这一框架,本文对学术资源的各个方面提出了语义标注方案。首先,针对学术资源定义了一套元数据,主要内容包括基础元数据、内容元数据及引文元数据,并对其中具体的元数据进行细分。其次,本文结合手工标注以及自动标注方法对学术资源的具体内容进行标注,引入模块化的概念来改进手工标注的方法,采用监督学习方法对学术资源内容及引文进行标注,并引入情感分析的方法对引文进行情感分析,其中,为了提高监督学习的效率,本文构建了多个词表进行辅助。最后,本文对所提的方案采用实验进行验证,实验结果支撑了本文所提方法的有效性。本文对于学科领域本体学习和学术资源语义标注的研究具有较高的理论价值和实践意义。首先,本文提出的面向学科领域的本体学习方法,可以推广到其它领域的本体构建的研究中。其次,为学术资源的语义标注提供了系统的标注框架。最后,构建的学科领域本体是学术资源检索和利用的基础,具有较高的应用价值。本文只涉及了本体学习中的概念及关系的学习阶段,并没有对公理学习进行深入的研究,另外,学术资源的语义标注目前还有很多问题可以深入挖掘。在下一步的研究中,将对公理学习进行探讨,并对学术资源的语义标注提出更多解决方案。

其他学术论文