论文部分内容阅读
【摘要】语料库语言学观点对于基于语料库的计算机语言学很有帮助。本文语料库语言学观点出发,特别研究如何应用语料库资源作为智能机器学习软件系统的训练数据,使他们能够学习英语使用的模型从而可以开发语音和语言技术应用,如语音和手写认知系统。
【关键词】语料库资源 机器学习 语音与书写识别
一、语言学习的不同视角
随着信息技术的发展,对电脑从各种方式处理语言的需求也在持续发展,这就导致在学术上IT的子域有了一系列不同的名字:“自然语言处理”,或“计算机语言学”,英国研究资助机构 “言语和语言技术”(SALT)。所有SALT系统都需要某种形式的语言模式,把这种模式融入计算机系统的一种方式就是运用机器学习算法,把语料库作为训练数据。大部分的术语是与人类语言学习相平行的,但是在潜在的语言学习过程中,也有很大的不同。更重要的是,人类作为学习者,把英语作为第二语言或外语开始学习,是从了解某种其他的自然言语开始的,学习任务是从在新的和已知的语言的映射开始的,但对于任何两个被认为是理所当然的自然语言可以有一个很大的重叠。在机器学习中,电脑从编程开始。一个像computer一样的单词只是一个ASCII(基于拉丁字母的一套电脑编码系统)字符或字符串序列,除非学习或联系与这个词有关的更复杂的语言模式。
二、语音识别作为“嘈杂”英语的消歧
消除歧义是语音和语言技术的核心问题,对于大型词汇语音识别器,不局限于一个小领域,为输入声信号找到正确的ASCII音标的任务可以被视为一个消歧问题。同样的观点也适用于手写识别、光学字符识别系统,甚至语法校正文字处理软件也可以以这种方式建模:在每种情况下,输入必须认为是嘈杂的,与一些潜在的分析,在每个点之间做出选择。
在一个识别系统(演讲,手写或打印文本输入)里,嘈杂英语代表通常是一个序列候选词,称为单词识别格,Atwell(1993)给出了如下的叙述(与现实的系统比较简化得多)。听到这句话“斯蒂芬去年离开学校,”一个英语语音识别系统可能产生下列格子的候选词:
Lest last least Yearnyour year
在语音识别方面,替代候选单词每一点在发音上都是相似的,在脚本识别中,候选都是在轮廓上相似的,对英文文本的单词处理的错误性检测的任务也可以在单词识别格完成,如果每个单词输入时,系统人为的使其模棱两可,Atwell(1987)建议:这可以通过对每个输入单词生成军团来完成,然后选择最符合上下文的军团成员。如果最好的选择不是实际上输入的这个词,这将成为一个建议的错误的更换项。
语言模型的任务是找到单词的最好的序列,这样的话选择的单词的序列是在语言上最合理的,大多数语言模型对点阵消歧只提供可用的语言知识模仿覆盖。这是因为系统必须搜索所有可能的候选词的组合,分析识别晶格包括横贯一个更大的搜索空间与在分析已知的句子相比。正因为如此,在合理的时间消除歧义识别晶格,复杂的语言分析系统可能过于缓慢而笨拙。例如,Atwell(1994)发现一个概率的上下文无关的图解析器,还需要长时间的计算发现大量的模糊分析,甚至于对简单的单词识别晶格,相似的Keenan(1992)报道了不实际的长时间的计算,当试图使用阿尔维自然语言工具包(ANLT)图表解析器(Phillips,1987)对手写文字识别格消歧时。这可以说是一个需要语言模型达到一个务实的平衡,在保持计算实用的同时,吸收一系列的语言知识。
三、电脑从语料库资源可以学到哪些方面的语言
一般从语料库资源习得和提取的模型都是以词汇为导向的,并非为了语言理论的原因,而是因为机器学习数据驱动的,而在自底向上的学习中,训练文本中的词是基线,广泛的词汇信息以及它们如何结合,可以从语料库中收集到资源,这是尤其如此,如果语料库资源不仅限于原始文本样本,而是丰富的文本资源。标注语料的范围也不断扩大,包括局部演讲标记了单词的文本,与句子注释与句法短语结构树图资料库,口语语料库与字形和语音合成与数字化声学信号,平行语料库与英语句子与他们在另一种语言的翻译,错误语料,有拼写或语法错误标记英语考试,并与优先修正带注释的,点阵全集,言语和手写系统的输出,其中每个单词注释着一组队列或候选词列,甚至平行注释全集,单词和句子注释着几种类型的语言分析。对于机器学习的目的,它可能在对待机器可读版本的印刷词典时是有效的,作为一种特殊的标注语料库,词有复杂的注释包括语法类和定义文本,假设这广泛的训练数据,更广泛的语言信息是通过机器可学的,包括以下:
·英文单词列表,连同频率或可能性;
·单词级别或类别:句法、语义或复合;
·反复出现单词的组合,习语和搭配模式;
·单词组(词语对,词语组)频率或可能性;
·单词级别-词性标记组(标记-对,标记-组)频率或可能性;
·高级句法组成结构,组成可能;
·字典词义(词汇语义)所说的搭配可能性
总之,基于语料库的方法迫使实际问题的意识在可重用的一个SALT系统工作中很重要,在手工制作一个语言模型中,语言学家可以忽略标点符号和韵律标记,大写,新词或词汇外的生词,分割成单词和句子等问题。
参考文献:
[1]Holder,W.(1967),Elements of English Speech.Scolar Press,Menston.
[2]Sheridan,T.(1968),Course of lectures on elocution.Scolar Press,Menston.
作者简介:王静(生于1990年1月),女,西安电子科技大学,硕士学位,外国语言学及应用语言学,硕士研究生。
【关键词】语料库资源 机器学习 语音与书写识别
一、语言学习的不同视角
随着信息技术的发展,对电脑从各种方式处理语言的需求也在持续发展,这就导致在学术上IT的子域有了一系列不同的名字:“自然语言处理”,或“计算机语言学”,英国研究资助机构 “言语和语言技术”(SALT)。所有SALT系统都需要某种形式的语言模式,把这种模式融入计算机系统的一种方式就是运用机器学习算法,把语料库作为训练数据。大部分的术语是与人类语言学习相平行的,但是在潜在的语言学习过程中,也有很大的不同。更重要的是,人类作为学习者,把英语作为第二语言或外语开始学习,是从了解某种其他的自然言语开始的,学习任务是从在新的和已知的语言的映射开始的,但对于任何两个被认为是理所当然的自然语言可以有一个很大的重叠。在机器学习中,电脑从编程开始。一个像computer一样的单词只是一个ASCII(基于拉丁字母的一套电脑编码系统)字符或字符串序列,除非学习或联系与这个词有关的更复杂的语言模式。
二、语音识别作为“嘈杂”英语的消歧
消除歧义是语音和语言技术的核心问题,对于大型词汇语音识别器,不局限于一个小领域,为输入声信号找到正确的ASCII音标的任务可以被视为一个消歧问题。同样的观点也适用于手写识别、光学字符识别系统,甚至语法校正文字处理软件也可以以这种方式建模:在每种情况下,输入必须认为是嘈杂的,与一些潜在的分析,在每个点之间做出选择。
在一个识别系统(演讲,手写或打印文本输入)里,嘈杂英语代表通常是一个序列候选词,称为单词识别格,Atwell(1993)给出了如下的叙述(与现实的系统比较简化得多)。听到这句话“斯蒂芬去年离开学校,”一个英语语音识别系统可能产生下列格子的候选词:
Lest last least Yearnyour year
在语音识别方面,替代候选单词每一点在发音上都是相似的,在脚本识别中,候选都是在轮廓上相似的,对英文文本的单词处理的错误性检测的任务也可以在单词识别格完成,如果每个单词输入时,系统人为的使其模棱两可,Atwell(1987)建议:这可以通过对每个输入单词生成军团来完成,然后选择最符合上下文的军团成员。如果最好的选择不是实际上输入的这个词,这将成为一个建议的错误的更换项。
语言模型的任务是找到单词的最好的序列,这样的话选择的单词的序列是在语言上最合理的,大多数语言模型对点阵消歧只提供可用的语言知识模仿覆盖。这是因为系统必须搜索所有可能的候选词的组合,分析识别晶格包括横贯一个更大的搜索空间与在分析已知的句子相比。正因为如此,在合理的时间消除歧义识别晶格,复杂的语言分析系统可能过于缓慢而笨拙。例如,Atwell(1994)发现一个概率的上下文无关的图解析器,还需要长时间的计算发现大量的模糊分析,甚至于对简单的单词识别晶格,相似的Keenan(1992)报道了不实际的长时间的计算,当试图使用阿尔维自然语言工具包(ANLT)图表解析器(Phillips,1987)对手写文字识别格消歧时。这可以说是一个需要语言模型达到一个务实的平衡,在保持计算实用的同时,吸收一系列的语言知识。
三、电脑从语料库资源可以学到哪些方面的语言
一般从语料库资源习得和提取的模型都是以词汇为导向的,并非为了语言理论的原因,而是因为机器学习数据驱动的,而在自底向上的学习中,训练文本中的词是基线,广泛的词汇信息以及它们如何结合,可以从语料库中收集到资源,这是尤其如此,如果语料库资源不仅限于原始文本样本,而是丰富的文本资源。标注语料的范围也不断扩大,包括局部演讲标记了单词的文本,与句子注释与句法短语结构树图资料库,口语语料库与字形和语音合成与数字化声学信号,平行语料库与英语句子与他们在另一种语言的翻译,错误语料,有拼写或语法错误标记英语考试,并与优先修正带注释的,点阵全集,言语和手写系统的输出,其中每个单词注释着一组队列或候选词列,甚至平行注释全集,单词和句子注释着几种类型的语言分析。对于机器学习的目的,它可能在对待机器可读版本的印刷词典时是有效的,作为一种特殊的标注语料库,词有复杂的注释包括语法类和定义文本,假设这广泛的训练数据,更广泛的语言信息是通过机器可学的,包括以下:
·英文单词列表,连同频率或可能性;
·单词级别或类别:句法、语义或复合;
·反复出现单词的组合,习语和搭配模式;
·单词组(词语对,词语组)频率或可能性;
·单词级别-词性标记组(标记-对,标记-组)频率或可能性;
·高级句法组成结构,组成可能;
·字典词义(词汇语义)所说的搭配可能性
总之,基于语料库的方法迫使实际问题的意识在可重用的一个SALT系统工作中很重要,在手工制作一个语言模型中,语言学家可以忽略标点符号和韵律标记,大写,新词或词汇外的生词,分割成单词和句子等问题。
参考文献:
[1]Holder,W.(1967),Elements of English Speech.Scolar Press,Menston.
[2]Sheridan,T.(1968),Course of lectures on elocution.Scolar Press,Menston.
作者简介:王静(生于1990年1月),女,西安电子科技大学,硕士学位,外国语言学及应用语言学,硕士研究生。