面向中文社交媒体语料的词法分析研究

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:shuaiqi_09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词任务是机器翻译、自动问答、信息检索等自然语言处理任务的基础工作,其研究具有重要的理论意义和应用价值。面向社交媒体语料的自然语言处理任务受到广泛关注,但由于社交媒体语料的特殊性及其分词训练语料极为匮乏等问题,导致现有分词器在该领域的分词结果不理想。本文围绕如何提高面向微博等社交媒体领域的中文分词器的性能这一课题展开深入研究,主要研究内容包括:针对微博领域缺乏分词训练语料且含有大量新词的问题,提出一种新的无监督微博新词识别方法。由于现有新词识别统计量对词频依赖性较大,因此,本文将新词识别任务分为高频新词识别和低频新词识别两个子任务。对于高频新词识别任务,提出点互信息和字向量相结合的新词识别方法;对于低频新词识别任务,提出基于Modified Accessor Variety和词串独立性的新词识别方法。结果表明,本文所提方法优于当前领先的Overlap Variety新词识别方法。针对微博语料中存在大量相似样例的问题,提出基于λ-主动学习的中文微博分词方法。该方法的初始分词器采用CRFs模型,利用无监督方法从大规模未标注语料中获得点互信息和停用字可能性作为CRFs模型的学习特征;根据微博语料中存在大量局部相同而整体不同的样例的特点,在主动学习挑选样例时引入参数λ对字边界的多样性进行衡量,有效控制选取的类似样例的数量。实验表明,所提方法优于目前领先的基于词边界标注的主动学习方法。为了在扩充训练语料过程中避免人工标注工作,提出基于BLSTM神经网络模型和CRFs模型协同训练的半监督中文微博分词方法。该方法在协同训练过程中,根据个体分词器对未标注微博语料的预测结果获得标注样例中的异簇,并提出规则和D-S证据理论相结合的标签自动修正算法对异簇标签进行修正,从而生成伪训练语料。结果表明,本文所提的协同训练方法可以在不需要任何人工标注的情况下,利用自动获得的伪训练语料显著提高个体分词器的性能,达到该领域的领先水平。综上,本文针对微博等社交媒体语料的特点提出无监督新词识别方法、基于半监督的主动学习方法的中文微博分词方法和基于半监督的协同训练的中文微博分词方法。结果表明,本文研究工作能够自动获得高质量的微博分词训练语料,有效提高面向微博语料的中文分词器的性能,为面向社交媒体语料的文本处理与信息抽取打下基础,也为训练资源稀缺的研究任务提供了扩充训练语料的新思路。
其他文献
【正】 唐代饮茶是从山林寺院、皇宫、富邸逐步普及到民间成为"比屋之饮"的"黄金时代";唐代又是诗歌由古体诗发展到近体诗并呈现全面繁荣、高度发展的"黄金时代"。两个"黄金
采用线性稳定性分析方法,对Josephson结RSJ模型和RCSJ模型的等效电路进行非线性特性研究,并给出了I-V特性曲线,观察到滞回现象。
目的分析门诊护理发生纠纷的原因,并采取相应的解决对策。方法选择来我院门诊就诊的193例患者分为两组,分别给予常规护理和针对性护理服务,比较两组患者的护理效果。结果门诊
文章从课程的目的、内容和评价三个方面介绍了国际中学的一门课程《知识论》在九十年代的新进展。八十年代课程内容结构松散 ,而九十年代《知识论》课程的目标、内容结构更为
<正>在纽约参加巴克莱·CEO能源-电力会议时,埃克森美孚首席执行官达伦·伍兹表示,尽管降低排放的呼声很高,但能源转型将是一个长期的过程,可能需要几十年的时间。在这个过程
对经过多年生产实践考验的焙烧多功能天车吸卸料系统,从不同角度进行除尘效率影响因素的分析,并提出了提高除尘效率的改进措施。
桥本甲状腺炎乃虚实夹杂之证,主要以脾气亏虚为本,气滞、痰凝、血瘀为标,病邪壅于颈前而发病,治以益气健脾、行气活血化痰为主,并且辨病与辨证相结合,分期论治。本病早期多属
毛泽东抗日思想有其深刻的主观背景、历史背景、现实背景和国际背景;其基本内容至少有三个方面,具有极其重大的历史意义和时代意义。 Mao Zedong’s anti-Japanese ideology
翘望回首,机器视觉在中国的发展已有十余个年头。过去10年是机器视觉产业在中国市场发展最快的10年,机器视觉产业在中国市场已渡过了发展的最初时期,国际知名机器视觉厂商纷
协奏曲《永恒的水》(1998)是谭盾"有机音乐三部曲"中的第一部作品。其中的第二乐章——活泼的行板,是极具音乐色彩和中国曲调韵味的一个乐章。本文探讨的重点将是第二乐章中三个