基于动态流通语料库(DCC)的流行语释义信息自动提取研究

来源 :北京语言大学 | 被引量 : 13次 | 上传用户:lzy9061
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流行语是“在某一时期,某一地域或者某一人群中迅速传播、盛行的词汇”,而流行语释义就是对流行语的含义进行注释或解释。本文主要研究在大规模真实文本中提取流行语的释义信息的方法,并尝试对提取出来的相关释义信息按一定的重要度进行排序。 我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择了2004年全年和2005年全年的15种主流报纸的网络版文本,共841,547,069字(即约8亿4千万字),其中2004年语料总量为415,756,703字,2005年语料总量为425,790,366字。在此基础上,我们经人工标注,建立了流行语释义信息提取的训练语料库,并分别对2004年及2005年的流行语释义信息进行自动提取的封闭测试和开放测试。 本文的研究特色主要体现在以下几个方面: 一、首次对流行语释义信息进行了考察 1、界定了“流行语释义信息”的概念。流行语释义信息指的是一些与流行语释义相关的但没有经过提炼与整合的信息。 2、厘清了“流行语释义信息”的类别。从形式的角度考虑,主要把流行语释义信息分为两类: 一类为带标记的流行语释义信息。 这里所谓的标记,专指“是”、“即”、“就是”、“称为”、“叫做”、“包括/包含”、“所谓……是指……”、“由……构成/组成”等常用于一般词语释义中的特定的词或固定结构,带有这些标记的流行语释义信息就称之为带标记的流行语释义信息。 另一类为不带标记的流行语释义信息。 这类释义信息不带有上述的标志词,但是可以发现另外一些专门的词语,例如:时间、地点、事件等命名实体,这些词语在提取时可以作为特征项,但其提取效果是无法跟上述标记相比的。这类释义信息主要可以分为人物简历类释义信息和事件类释义信息。 二、实现了对流行语释义信息的自动提取 我们选择2004年15种主流报纸全年的语料(共415,756,703字)作为我们的训练语料,含流行语的句子数为62,335条,经过人工标记、校对,共得到流行语释义信息1750条。
其他文献
转基因生物技术在给人们带来巨大经济利益的同时,电带来了不确定的安全隐患。考察发达国家转基因生物安全监管立法,建议建立符合中国国情的生物安全监管法律体系,这对于保障生物
目的观察强辛汤治疗慢性心力衰竭临床疗效及对心钠素(ANP)、脑利钠肽(BNP)和生活质量的影响。方法选取慢性心力衰竭患者80例,随机分成2组,治疗组40例,采用西医常规加服强辛汤治疗;对
本文简要概述了初中语文教学反思的内涵、作用,然后针对现阶段初中语文教学过程中的不足之处进行了反思,并提出了一系列改革策略,旨在为初中语文教育工作者提供有建设性的参
在审理劳动关系与其它民事关系相互并存的劳动争议案件时,应当首先确定该劳动关系的模式属性,对于确认为非标准劳动关系的案件,对其中没有约定或约定不明的争议事项,应打破单
回指及回指消解在语篇理解加工中起着核心作用,是语言学特别是心理语言学当前的一个研究热点。与英语相比,汉语非常灵活,节省。在回指的使用上,汉语在语境提供了足够信息的情
为了总结神经电生理监护在脊柱外科手术中的应用情况,本文广泛查阅神经电生理技术在脊柱外科术中监护的相关文献,对术中监护的目的、基本技术方法以及可能对监护产生的影响因
<正>高慧,博士后,教授,主任医师,硕士研究生导师。第五批全国老中医药专家学术经验继承工作指导老师。河北省首届名中医,河北省首届优秀中医临床人才。国家中医重点专科(中医
本文以认知发展理论为理论基础,以一名普通话儿童Y12月——30月语言发展的日记记录为语料基础,探讨普通话儿童在空间范畴表达方面表现出来的规律。全文除绪论和结语外,共有五