论文部分内容阅读
以微电子、信息技术为基础,计算机、通信和互联网等为核心的技术革命,以及由此引起的经济和社会的发展而产生的信息革命,正在迅速向前发展。互联网(包括移动终端、移动互联网在内)全球化普及成为信息革命的重要标志。互联网的高度发展,允许新社会中广大网民非常便捷的制造和消费网络数据,造成了在众多领域积累起来规模越来越庞大的数据,于是产生了大数据。其本质是当数据的规模和复杂性超过了现有数据处理平台的软硬件能够处理的范畴时,人们迫切寻求在有限的成本下高性能的大数据处理解决办法。云计算的出现,推动了大数据研究的发展。本论文的研究则是从系统的角度来解决一类重要类型的大数据即语义网络大数据的管理和应用的问题。 语义网络大数据是由于自然语言处理技术的进步,可以从互联网数据中抽取出规模庞大的知识条目,不断积累而形成大规模开放语义网知识库。它能够为应用领域提供诸如语义搜索和信息推荐等重要的知识服务,在现代搜索引擎中发挥着越来越重要的作用。为了提高知识服务的质量,知识库需要不断丰富和完善来自不同领域的知识内容,需要从众多知识源头获取新知识,并将新老知识编织(集成)到一起。随着语义网知识库规模的不断壮大,它具备了典型的大数据系统特征:规模庞大、类型多样、不断变化。因此,我们称之为语义网络大数据,或者知识大数据。尽管人们不断努力提高知识抽取的精度,但受制于机器在形象思维和语义辨别方面的能力限制,总有一些带有瑕疵的知识被抽取并融入到知识库系统当中。加之知识源头众多、领域宽泛、用户需求多样化,使得语义网知识库成为开放复杂巨系统,其有效管理和利用成为巨大挑战。本文从知识大数据管理和应用出发,利用开放复杂巨系统中定性定量集成方法的一些思路,研究在知识大数据的管理和应用过程中,通过人的参与和反馈,更好地解决知识大数据在获取、集成和搜索方面所面临的一些难题。 具体的,本文的主要研究工作和创新点如下: 第一,在知识获取和知识集成方面,我们研究如何在现有知识挖掘和抽取技术基础上,高效的并且准确的从互联网上获取新知识,并集成到知识库当中。我们提出了具有自感知能力的知识获取方法和自底向上的知识集成方法,并通过引入人工反馈来校验知识集成的准确性和评价知识源数据质量的重要性,用以提高知识库系统更高质量的完成知识的获取和集成。整个知识获取和集成的流程采用多线程流水线设计,根据不同环节的处理能力,动态调度系统资源,协调知识获取和集成各个环节高效的进行。 第二,在知识搜索方面,我们重点要解决因为用户查询的语义歧义性而造成的知识搜索结果质量不高的问题。提出了在知识搜索过程中使用谓词-关键字对来实现对查询的语义限制,通过设计高性能的谓词-关键字对的组合推荐算法,在尽可能少的用户反馈的基础上,更高效的排除关键字查询中的歧义,从而搭建起了现有知识检索解决方案中结构化查询与关键字查询之间的桥梁。 第三,我们将系统工程中人机结合的思想,应用在知识大数据的获取、集成和搜索问题上,以解决机器在管理大规模知识库过程中知识质量低,检索结果差的问题。实现了一个基于人机结合的知识获取和集成、知识搜索的原型系统,在实践中进一步检验了所提出的人机结合技术的有效性,更加强化了人机结合、人机交互在大规模知识管理系统中的重要性。 本文主要结构如下:第一章介绍了研究背景、意义、主要研究内容和贡献。第二章综述了相关工作。第三章围绕知识获取和知识集成,给出了一个基于人机结合的解决方案。第四章研究了基于谓词-关键字对反馈机制的知识搜索方法。第五章介绍了基于人机结合的知识获取和集成、知识检索的原型系统。最后,总结了本文现阶段的工作,并展望下一步研究作。