基于主动学习的中文分词方法研究

来源 :成都信息工程大学 | 被引量 : 0次 | 上传用户:suxiaohua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理应用的基础工作,分词结果好坏直接影响相关应用的后续环节。目前基于有监督学习的中文分词方法在工业界得到了广泛应用并取得了良好的效果,但是有监督学习方法依赖于大量的人工标注数据。在特殊领域的中文文本分词任务中,标注数据非常稀少,同时标注大量文本需要巨大的人工标注成本,使得基于有监督学习的中文分词方法在这些文本上并不实用。在缺少标注数据的情况下,如何保持分类模型的性能优良得到了大量的研究,主动学习方法就是一种有效实用的解决方法。本文采用主动学习方法对中文分词进行研究,并改进主动学习框架中模型训练环节,并基于本文研究内容实现半自动标注系统以优化传统的数据标注形式。本文的主要研究工作有以下三方面:(1)基于主动学习的中文分词方法研究:利用条件熵度量样本的不确定性,并选择出不确定性最高的数据作为最具标注价值的数据推荐给人工标注,从而实现在小规模标注数据集下,训练出高性能的中文分词器。(2)采用半监督学习训练中文分词器:(1)中描述方法仅利用少量的标注数据训练中文分词器,而忽略了大量未标注数据中的重要信息。在主动学习框架下,采用EM算法训练中文分词器,能够充分地利用了标注数据集与未标注数据集。该方法能够使得中文分词器性能以及泛化能力都得以提升。然而,主动学习方法选取的数据实例不一定是最靠近决策面的数据实例,从而不能够快速地找到决策面,导致分词器训练时间较长,影响其实用性,因此提出研究工作(3)内容。(3)基于逆向工程生成实例的主动学习中文分词方法研究:基于对抗学习思想,利用生成器产生比实际数据实例更具价值的伪实例。该类实例非常靠近决策面,通过这些实例不仅能够快速地获得决策面,还能够使得决策面更加准确。但是伪实例的类别由当前的分词器判别,其可靠性依赖于分词器的性能,所以生成的伪实例中,有较多的不可靠数据,容易导致分词效果较差,如何提升生成实例的类别可靠性需要进一步研究。
其他文献
消毒供应室应具有严谨的科学性和技术性,它每日向各临床科室提供无菌医疗器械各种敷料的质和量,都直接影响到医治病人的成功,不发生感染,使患者早日康复.现将我们具体做法介
期刊
【摘 要】近年来,伴随着课程改革的不断发展,专家和学者们越来越深刻地意识到了培养学生英语能力的重要性,并对初中英语教学给予了高度关注。同时,网络教学资源凭借其适用性、灵活性和针对性强等特点,赢得了众多学校和教师的青睐。伴随着社会信息化程度的不断提高,利用网络资源进行教学创新的重要性越来越显出其重要性。  【关键词】初中英语;网络资源;阅读教学  【中图分类号】G623. 31 【文献标识码】A  
【摘要】在小学数学教学中,教师应通过课堂问题的形式检查学生学习情况,引导学生思考和研究数学知识,加强师生互动,提高课堂教学有效性。然而,部分教师在课堂问题设计时存在较大的随意性,导致小学数学课堂教学质量下降。如何提高数学课堂问题设计有效性,笔者认为应结合小学生心理特点,精心设计数学课堂问题,激发学生的学习兴趣,以期提高小学数学课堂教学质量。  【关键词】小学数学 课堂问题 有效性  【中图分类号】
高血压病、冠心病、糖尿病、恶性肿瘤(统称四种慢性非传染性疾病,简称"慢四病")已成为人类最主要的死亡因素.我院从1998年开展社区卫生服务以来,以中城、北城、西城3个社区医
目的观察心肌挫伤患者在48小时内心肌标志物含量的变化及判断心肌挫伤的程度.方法对28例心肌挫伤患者在48小时内不同时间分别采集静脉血,测定肌红蛋白(Myo)和肌酸激酶同功酶
监督学习的精度极大依赖于标签样本数量,人工标记样本的成本很高,利用大量无标签样本及有限数量标签样本的半监督学习成为提升算法精度的有效方法。深度学习的生成模型仅利用输入样本本身作监督,在半监督学习中可以帮助学习器利用大量无标签样本数据学习样本的分布情况,成为半监督学习领域的新方法。本文在详细研究了对抗自编码器(AAE)模型结构及训练过程后发现:在半监督分类任务中,模型具有两个不同的判别器,两种约束在
随着生命科学的蓬勃发展,化学医药领域的相关文献呈现指数级增长态势。从这些海量的非结构化医学文献中抽取出结构化的、有组织的化合物信息,有助于医药及相关领域人员开展药品研发工作,进而促进整体制药工业的技术革新。其中,化学命名实体受到医药学研究者的广泛关注,是医学文献信息分析的主要载体,相关命名实体识别成为目前一个重要的科研课题。在现有的命名实体识别(Named Entity Recognition,N