文本语料库相关论文
知识图谱问答(KGQA)是给定自然语言问题,对问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案的过程。但知识图谱通常是......
在本文我们将扼要介绍由俄罗斯科学院信息传输问题研究所计算语言学实验室研制的机器翻译系统ETAP-3,它由一个机器翻译系统、与SQL......
在现代汉语基层词研究中,完形性是提取基层词的根本标准,词频通常只被视为基层词分级的工具。但本研究发现,在受到客观限制,完形性......
文本语料库的研制是文语转换研究的基础工作之一。本文在研制基于蒙科立输入法的“面向语音合成的回鹘式蒙古文(老蒙文)文本语料......
中央研究院的现代汉语、近代汉语、古代汉语及唐诗宋词文本语料库,是数位学习的大量资源。数位学习网页以针对一词广泛阅读的模式,......
本文从Web文本自动分类的需求出发,针对基于VSM(vectorspacemodel)模型的分类处理中词的无关性假设及词的维数过高等问题,结合Hown......
本文介绍了HNC反色情知识库建设的主要工作.HNC反色情知识库是为过滤互联网上的黄色色情信息而建设的,它包括涉性网站地址库、涉性......
近年来,大规模语料库的研究非常盛行。其原因是随着文本语料库电子化进程的急速发展,使以语言学研究、辞书以及机器翻译的发展等为目......
在1998年8月的应用语言学研讨会上,我提交的论文《关于大规模真实文本语料库的几点理论思考》,对语料库的建设进行了反思,在回顾多年来语料......
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序......
利用BRAT标注工具及人工标注方法,根据初步制定的文本语料标注规范,按照语料选择、语料预处理、语料标注、标注校对、一致性检验的......
大连理工大学软件学院日语实验室创建的日语文本语料库JTCH(Japanese Text Corpus Handler)利用sen日语分词技术,以NHK、朝日新闻为......
文本语料库是文本数据挖掘的基础。很多文本语料库来源于生产生活的实际工作中,通常由行业专家为其定义类别。本文的数据集来源于......
本文对于语料库的建设和建设中的相关问题进行了一些反思,从普通语言学、社会语言学的角度,思考了一些与句法、语义、语用相关的理论......