【摘 要】
:
并列结构作为自然语言中的一种常见组成结构,它的正确识别可以很大程度上提高自动句法分析器的性能和效率,也能推进汉语树库的构建工作,同时其识别结果也可直接应用于机器翻译、信息抽取等领域。由于汉语本身复杂多变的特点,并列结构识别成为中文信息处理领域的研究难点。目前的研究中,基于规则的方法需要人工根据具体语言语法和领域来构造规则模板,应用这种方法系统实现代价很高,并且可移植性较差。基于统计的方法虽取得效果
论文部分内容阅读
并列结构作为自然语言中的一种常见组成结构,它的正确识别可以很大程度上提高自动句法分析器的性能和效率,也能推进汉语树库的构建工作,同时其识别结果也可直接应用于机器翻译、信息抽取等领域。由于汉语本身复杂多变的特点,并列结构识别成为中文信息处理领域的研究难点。目前的研究中,基于规则的方法需要人工根据具体语言语法和领域来构造规则模板,应用这种方法系统实现代价很高,并且可移植性较差。基于统计的方法虽取得效果较好,但高度依赖于标注语料,未利用无标注语料中丰富的语义信息,同时现有的标注语料规模无法满足大数据时代下的语言模型。针对这些不足,本文对有效识别并列结构的方法展开探索,提出基于半监督学习的并列结构识别方法,以尝试解决并列标注语料匮乏和目前研究未使用未标注语料中语义信息的问题。首先,针对传统方式依赖于标注语料,未能充分利用未标注数据语义信息的问题,本文以条件随机场为基本框架,从未标注语料中训练出词向量继而提取出无监督特征加入有监督模型,同时引入语言学特征来开展多组对比实验,考察融入不同类型的特征对并列结构识别效果的影响。实验表明,无监督特征的融入能提高并列结构的识别效果,使F1值达到85.75%,语言学特征和无监督特征结合后的F1值为85.77%,这说明语言学特征对结果的影响甚微,而无监督特征的引入可以减少人工选取特征的工作量,并将语义信息以较简洁的方式融入识别模型。其次,并列结构识别研究受到标注数据量少这一问题的限制,而半监督学习和主动学习都是在少量标记数据代价下,利用未标记数据提高监督学习识别性能的有效方法。为此,本文提出结合半监督学习中的协同训练(Tri-training)算法和主动学习的识别方法,先基于协同训练自动标注样本点,再利用主动学习算法提取部分不确定度较高的样例进行人工校正。在训练模型之前,为平衡训练集样本分布,提出一种适用于并列结构的规则欠采样数据剪辑方法,基于规则对未标注数据进行欠采样处理,这为后续的模型训练奠定了良好基础。在样本不确定性度量上,提出了一种改进的最小置信度样本选择策略(En LC选择策略),对具有较高度量值的无标样本进行标注校对,用以提高模型标注效率和质量。实验结果证明增强的Tri-training方法和主动学习结合的方式能够有效扩展标注语料规模,并且采用En LC选择策略的模型性能更优。
其他文献
随着我国工业机器人产量不断提高,很多的人工作业逐渐被工业机器人替代。在蓄电池生产中往往会存在大量重复性高的码垛工作,人工码垛蓄电池在效率上已经不能满足现代生产需求,这些都为机器人码垛技术的发展提供了机会。由于不同厂家生产的铅酸蓄电池电池外观、尺寸并不相同,并且码垛时抓取数量不唯一,而且现阶段市面上的码垛设备功能较为单一,只能实现码垛过程的单一功能,没有适用于多种规格蓄电池的通用码垛设备销售。本文以
在教育领域,问答题题型广泛用于各种考试中。以往针对问答题的自动评分研究吸引了大量学者研究,且大都面向电子版文档。而目前的作业、试题大都以纸质文档为主,故距实际应用较远。如何将问答题自动评分的方式方法应用到纸质对象的评阅中,还尚未有完整的解决方案,成为了自然语言处理在教育行业应用的重点和难点问题。在上述背景下,本文从教师的试卷批改工作入手,观察和调查教师的批改动作,根据改卷过程中的需求和计算机工作特
水资源是一种与人类生活和经济生产密切相关的重要因素,但地球上可供人类使用的淡水资源的数量并不多,不能满足人口数量增长和经济发展带来的用水量需求,加剧了水资源分配方面的矛盾。中国作为一个农业大国,每年农业上的用水比例一直占据着全国水资源消耗总量的榜首,2019年达到了61.2%。与此同时,农业灌溉中缺乏对水资源的高效利用,利用率仅有30%左右。因此,我国将大力推进节水灌溉作为现代农业的一项基本国策。
以卷积神经网络为基础的目标检测模型,凭借着其卓越的性能优势,在交通、安防、医疗等领域展现出了极大的潜力和价值,而在未来检测模型的意义还要进一步加深。近些年来对于目标检测模型的研究也在飞速发展,不断有新模型、新结构出现,表现出更好的检测效果。本文聚焦于一阶目标检测模型SSD(Single Shot Multi Box Detector)在检测精度上的不足问题以及小型轻量化模型的设计问题,分别提出了设
基于运动想象(Motor imagery,MI)脑电的脑-机接口技术(Brain-Computer Interface,BCI)是一种新兴人机交流方式,对MI脑电信号的正确分类是决定其性能的关键因素。脑机接口控制方式有很多种,MI脑电信号是BCI系统经常使用的一种特征信号。大量的脑部活动信息存在脑电信号中,通过对原始脑电信号的处理和研究,大脑机能的不同状态可以被大致的推断出来,这对认知障碍疾病的诊
随着全球控烟环境日趋严峻、消费者对传统卷烟制品危害性认识不断增强,研发一种能够有效降低烟草有害成分释放量、顺应时代发展的新型烟草制品显得尤为重要,这也是系消费者对健康关注的重大民生问题,而加热不燃烧新型卷烟制品具有降焦减害作用,已经成为各大烟草行业研发的重点领域之一。针对电阻加热型新型卷烟烟具发热元件发热不均匀、控温精度欠佳、制作工艺复杂等难以克服的技术缺陷,本文引入了电磁加热技术对烟具加热性能进
20世纪以来,随着人工智能领域的快速崛起,人工智能技术开始广泛地应用于机器人领域,智能机器人应运而生。移动机器人作为智能机器人学中最为重要的一个门类,一直以来都聚焦着国内外学者的目光。而作为移动机器人的关键之处,机器人如何“移动”,即如何进行路径规划自然而然成为了研究移动机器人最为关键的步骤。本文针对含有不同状态障碍工作环境中的路径规划问题,提出势场-蚁群融合算法引导移动机器人规划路径,在此基础上
无线传感器网络(Wireless Sensor Network,WSN)是由许许多多被任意安放的嵌入式传感器通过感知采集外部地域情况而进行信息交互的多功能化监测系统。传感器节点内部嵌入微小电池,来满足网络中其他操作运行的电量所需,但是电池内部电量和功率都十分有限,随着实际可以使用次数的减少,传感器节点的能量随之减少,而这些电池又不易调换,因此,在合理使用电池的情况下,如何有效的减少电池的能耗且延长
无线传感器网络(Wireless Sensor Network,WSN)技术由于其具有超高的实用性,在物联网领域占有举足轻重的地位。无线传感器网络的应用场景通常为条件复杂的外界环境,所以在部署及运行过程中难免会遇到各种问题。在无线传感器网络的应用过程中,网络中存在着一些无法通过卫星定位系统进行位置信息获取的未知节点,在不借助卫星定位系统实现对未知节点的定位能够有效保障网络的运行以及拓展无线传感器网
能量补充问题是无线可充电传感器网络(Wireless Rechargeable Sensor Networks,WRSN)的重要的一个研究课题,借助磁耦合谐振充电技术,可实现单个充电装置同时对充电覆盖范围内的多个传感器节点进行能量补充,还能够实现多跳充电从而有效延申充电距离,提高网络充电效率。本文基于磁耦合谐振充电技术,从单对多和多跳两个角度提出两种可行有效的方案对WRSN进行能量补充,主要研究内