现代汉语数字缩略语自动提取研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:hy009009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缩略语研究不仅是语言学的研究领域,也是自然语言处理的一个重要课题。现代汉语缩略语自动提取研究,是未登录词识别的一部分。在目前现代汉语缩略语词典资源缺乏的现状下,对现代汉语缩略语的自动提取研究,从而建立现代汉语缩略语的数据库,不仅是中文自动分词的需要,对信息检索、机器翻译、自动分类、自动文摘,句法分析的性能指标都有重要的影响。论文选择了缩略语范围的数字缩略语的提取作为研究领域。现代汉语数字缩略语的提取研究就是从大规模的真实文本中识别并提取出汉语数字缩略语的过程。论文首先以缩略语词典为基础建立现代汉语数字缩略语词库,通过对词库里的现代汉语数字缩略语的内部结构特征总结归纳出初步的识别规则;其次建立总体约128万字的封闭和开放测试语料库,使用不同的分词系统对测试语料进行分词和词性标注,并手工标注数字缩略语。之后对比初始标注的结果与手工标注的正确答案,在错误驱动的基础上,获取一批转换规则;从而补充修改之前的规则。最后给出了汉语数字缩略语提取的封闭测试和开放测试结果及分析。实验证明,运用此方法对现代汉语数字缩略语进行提取研究,召回率和准确率都取得了较好的效果。
其他文献
曹植与甄后的恋情被诸多学者视为无稽之谈,但依木斋对曹植、甄后与"古诗十九首"的研究后发现,曹植的早熟性格与甄后贤淑聪慧的本性易使两人相互吸引,其证据即藏在现存的"古诗
生态工业园结合了经济效益和环境效益,是工业园发展的最新方向。本文总结归纳了生态工业园建设的理论基础,包括循环经济理论、工业生态学理论、景观生态学理论;对国内外生态工业
"屏障与安全:云南生态文明区域建设的理论与实践"高端学术论坛以知名专家、学者专题对话与讨论的方式,从人类学、生态学、民族史、环境史等不同学科领域视角出发,围绕"生态屏
综述了数据挖掘技术,阐述了数据挖掘产生的背景、定义和功能,论述了数据挖掘的技术和算法,介绍了数据挖掘的应用现状、研究热点及今后的发展方向。
随着我国经济的快速发展,各个行业领域呈现良好的发展前景,我国林果业在发展过程中,尽管带来了巨大的经济收益,但同时对周围的生态环境产生了严重破坏。本文主要探讨了林业果
目的探讨经皮冠状动脉介入治疗术后(Percutaneouscoronaryintervention,PCI)后患者血清血管内皮生长因子(Endothelialgrowthfactor,VEGF)的变化规律及其与再狭窄的关系。方法
<正>农业技术人员是农业技术推广的生力军,在农业增产、农民增收、农村稳定等方面发挥着十分重要的作用。随着市场经济的日趋完善,特别是中国加入世贸组织以后,农业技术对促
随着社会的不断发展和新媒体技术迅速应用,节目类型和传播方式越来越丰富,对播音主持专业能力提出了新的更高要求。面对媒体融合和交互式传播的传媒发展新格局,我们要加快调
上下文信息检索强调把有关用户、资源和查询的上下文与信息检索技术统一组织在一个整体框架内,以向用户提供最适合用户需求的检索信息。全面介绍了上下文信息检索的研究现状,