论文部分内容阅读
CBT(Computer Based Training)系统作为先进培训技术的重要组成部分,在民航业的飞行员培训和机务培训中具有重要作用。飞行CBT在国内外航空公司已有大量的应用,而部署机务CBT系统也是是国内二级维修单位的必备条件。本文的工作围绕CBT系统开发过程中,利用术语定义抽取技术从专业文献中获取专业相关知识所需的关键技术展开,并探索了将定义知识应用于智能CBT系统中的方法。本文的主要研究内容如下:(1)建设术语定义抽取实验用语料库。语料库是所有自然语言处理研究必须要解决的问题,但是目前国内外并没有现成的专供航空领域中文术语定义抽取研究的语料库,所以本文的第一项工作就是建设一个实验用语料库。根据实验要求,确立了第一阶段语料库的建设规模,并建立了本文语料库的开发规范并开发了相应的配套软件;还对语料库的各种信息进行了详细统计,以此作为本文后续研究的基础。(2)确定进行术语定义抽取的基本方法。由于研究目的不同,以往用于解决自动问答和搜索引擎排序问题的方法在本文中并不适用。针对术语定义在语料中分布极不平衡的情况,提出以平衡随机森林方法来解决术定义抽取问题;针对构建平衡训练集时随机产生合成样本的方法无法有效巩固是少数类密集分布区域边界的问题,提出了采用基于实例距离分布信息定义的重采样策略,相比随机重采样方法,提高了定义抽取的F1-measure和F2-measure。(3)改进术语定义抽取的特征选择方法。针对术语定义抽取语料中,数据分布不平衡以及定义句内部存在小析取项这两个问题,从特征选择角度提出基于类间分布差异和类内分布差异的特征选择方法。该方法改进了传统特征选择函数依赖词频统计结果主要衡量特征的类间分布差异的缺点。实验证明在应用于平衡随机森林方法时可以以更少的特征达到与传统filter方法同样的F1-measure和F2-measure。(4)利用多层次语言学特征进行定义抽取。本文对在信息抽取不同子课题中使用多层次语言学特征的情况进行了总结,针对定义抽取领域中由于缺乏可定量计算的方法,导致无法在进行定义抽取时充分利用语言学特征的问题,以信息熵为基础提出使用不同层次间的特征组合的组合熵来计算不同层次的特征组合对定义抽取的影响,并结合前文的特征选择框架用于多层次特征的筛选。该方法为研究不同层次的语言学特征在定义抽取中的作用和利用这些特征进行定义抽取提供了一种可计算的方法。实验证明了该方法的正确性和有效性。(5)设计并实现了CBT智能考核系统。针对现有AIG(Automatic Item Generation)技术不利于生成专业领域的试题而且干扰项的迷惑性也较弱的问题。本文以加工定义知识得到的多种知识表达为基础,设计了利用句型模板库和知识点库生成考核试题的题面,从领域本体生成干扰项的自动试题生成和评价系统。该方法可以有效满足CBT系统中对于专业知识的自动考核和评价的需求,同时能够大幅减轻开发题库和组卷所需的工作量。