航空领域术语定义抽取关键技术及其应用研究

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:deng5384588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CBT(Computer Based Training)系统作为先进培训技术的重要组成部分,在民航业的飞行员培训和机务培训中具有重要作用。飞行CBT在国内外航空公司已有大量的应用,而部署机务CBT系统也是是国内二级维修单位的必备条件。本文的工作围绕CBT系统开发过程中,利用术语定义抽取技术从专业文献中获取专业相关知识所需的关键技术展开,并探索了将定义知识应用于智能CBT系统中的方法。本文的主要研究内容如下:(1)建设术语定义抽取实验用语料库。语料库是所有自然语言处理研究必须要解决的问题,但是目前国内外并没有现成的专供航空领域中文术语定义抽取研究的语料库,所以本文的第一项工作就是建设一个实验用语料库。根据实验要求,确立了第一阶段语料库的建设规模,并建立了本文语料库的开发规范并开发了相应的配套软件;还对语料库的各种信息进行了详细统计,以此作为本文后续研究的基础。(2)确定进行术语定义抽取的基本方法。由于研究目的不同,以往用于解决自动问答和搜索引擎排序问题的方法在本文中并不适用。针对术语定义在语料中分布极不平衡的情况,提出以平衡随机森林方法来解决术定义抽取问题;针对构建平衡训练集时随机产生合成样本的方法无法有效巩固是少数类密集分布区域边界的问题,提出了采用基于实例距离分布信息定义的重采样策略,相比随机重采样方法,提高了定义抽取的F1-measure和F2-measure。(3)改进术语定义抽取的特征选择方法。针对术语定义抽取语料中,数据分布不平衡以及定义句内部存在小析取项这两个问题,从特征选择角度提出基于类间分布差异和类内分布差异的特征选择方法。该方法改进了传统特征选择函数依赖词频统计结果主要衡量特征的类间分布差异的缺点。实验证明在应用于平衡随机森林方法时可以以更少的特征达到与传统filter方法同样的F1-measure和F2-measure。(4)利用多层次语言学特征进行定义抽取。本文对在信息抽取不同子课题中使用多层次语言学特征的情况进行了总结,针对定义抽取领域中由于缺乏可定量计算的方法,导致无法在进行定义抽取时充分利用语言学特征的问题,以信息熵为基础提出使用不同层次间的特征组合的组合熵来计算不同层次的特征组合对定义抽取的影响,并结合前文的特征选择框架用于多层次特征的筛选。该方法为研究不同层次的语言学特征在定义抽取中的作用和利用这些特征进行定义抽取提供了一种可计算的方法。实验证明了该方法的正确性和有效性。(5)设计并实现了CBT智能考核系统。针对现有AIG(Automatic Item Generation)技术不利于生成专业领域的试题而且干扰项的迷惑性也较弱的问题。本文以加工定义知识得到的多种知识表达为基础,设计了利用句型模板库和知识点库生成考核试题的题面,从领域本体生成干扰项的自动试题生成和评价系统。该方法可以有效满足CBT系统中对于专业知识的自动考核和评价的需求,同时能够大幅减轻开发题库和组卷所需的工作量。
其他文献
汽车钳工实习是汽车维修类专业的一门重要的的课程,目的是使学生熟练使用工具和操作设备的技能。本文主要就如何提高当前技工院校汽车维修专业学生钳工实习教学效果进行探讨。
高职院校图书馆,不仅是学院文献信息的存储中心,更是教学和科研的主要辅助部门。信息化技术的发展使得图书馆用户的培训工作有了新的要求,突显出图书馆用户培训工作的重要性。本
由于我国国家综合能力的提升吸引了众多外国人的目光,高等学校也在积极推进国际化办学水平,国际化办学除了走出去还要引进来,引进留学生就是其中必不可少的组成部分.石油类高
本科生导师制是目前我国高等院校学分制顺利开展的有效措施,也是培养创新人才的有利教育模式[1]。文章对内蒙古农业大学森林工程专业本科生导师制从具体实施措施、实施办法、
目的了解大别山地区肾脏病理类型和流行病学特点。方法收集本院2004年6月至2013年12月505例肾活检资料进行分析。结果 505例患者男女比例1.00∶1.21。原发性肾小球疾病占73.7
本文通过对Rp、Hp磨煤机大量的现场调试服务 ,抢修工作中所积累的经验 ,列出了多年来在现场服务中经常碰到的问题。故障实例原因分析及其处理方法 ,仅供参考
广西壮汉民族长期的文化交流与融合,奠定了民族认同与国家认同的文化基础。文章从文化生态学的视角,分析了壮汉民族文化融合的现状,并从壮汉民族文化融合的政治生态、经济生