英语语料库中语音和书写识别对使用计算机学习语言的作用

来源 :校园英语·下旬 | 被引量 : 0次 | 上传用户:tonyyuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】语料库语言学观点对于基于语料库的计算机语言学很有帮助。本文语料库语言学观点出发,特别研究如何应用语料库资源作为智能机器学习软件系统的训练数据,使他们能够学习英语使用的模型从而可以开发语音和语言技术应用,如语音和手写认知系统。
  【关键词】语料库资源 机器学习 语音与书写识别
  一、语言学习的不同视角
  随着信息技术的发展,对电脑从各种方式处理语言的需求也在持续发展,这就导致在学术上IT的子域有了一系列不同的名字:“自然语言处理”,或“计算机语言学”,英国研究资助机构 “言语和语言技术”(SALT)。所有SALT系统都需要某种形式的语言模式,把这种模式融入计算机系统的一种方式就是运用机器学习算法,把语料库作为训练数据。大部分的术语是与人类语言学习相平行的,但是在潜在的语言学习过程中,也有很大的不同。更重要的是,人类作为学习者,把英语作为第二语言或外语开始学习,是从了解某种其他的自然言语开始的,学习任务是从在新的和已知的语言的映射开始的,但对于任何两个被认为是理所当然的自然语言可以有一个很大的重叠。在机器学习中,电脑从编程开始。一个像computer一样的单词只是一个ASCII(基于拉丁字母的一套电脑编码系统)字符或字符串序列,除非学习或联系与这个词有关的更复杂的语言模式。
  二、语音识别作为“嘈杂”英语的消歧
  消除歧义是语音和语言技术的核心问题,对于大型词汇语音识别器,不局限于一个小领域,为输入声信号找到正确的ASCII音标的任务可以被视为一个消歧问题。同样的观点也适用于手写识别、光学字符识别系统,甚至语法校正文字处理软件也可以以这种方式建模:在每种情况下,输入必须认为是嘈杂的,与一些潜在的分析,在每个点之间做出选择。
  在一个识别系统(演讲,手写或打印文本输入)里,嘈杂英语代表通常是一个序列候选词,称为单词识别格,Atwell(1993)给出了如下的叙述(与现实的系统比较简化得多)。听到这句话“斯蒂芬去年离开学校,”一个英语语音识别系统可能产生下列格子的候选词:
  Lest last least Yearnyour year
  在语音识别方面,替代候选单词每一点在发音上都是相似的,在脚本识别中,候选都是在轮廓上相似的,对英文文本的单词处理的错误性检测的任务也可以在单词识别格完成,如果每个单词输入时,系统人为的使其模棱两可,Atwell(1987)建议:这可以通过对每个输入单词生成军团来完成,然后选择最符合上下文的军团成员。如果最好的选择不是实际上输入的这个词,这将成为一个建议的错误的更换项。
  语言模型的任务是找到单词的最好的序列,这样的话选择的单词的序列是在语言上最合理的,大多数语言模型对点阵消歧只提供可用的语言知识模仿覆盖。这是因为系统必须搜索所有可能的候选词的组合,分析识别晶格包括横贯一个更大的搜索空间与在分析已知的句子相比。正因为如此,在合理的时间消除歧义识别晶格,复杂的语言分析系统可能过于缓慢而笨拙。例如,Atwell(1994)发现一个概率的上下文无关的图解析器,还需要长时间的计算发现大量的模糊分析,甚至于对简单的单词识别晶格,相似的Keenan(1992)报道了不实际的长时间的计算,当试图使用阿尔维自然语言工具包(ANLT)图表解析器(Phillips,1987)对手写文字识别格消歧时。这可以说是一个需要语言模型达到一个务实的平衡,在保持计算实用的同时,吸收一系列的语言知识。
  三、电脑从语料库资源可以学到哪些方面的语言
  一般从语料库资源习得和提取的模型都是以词汇为导向的,并非为了语言理论的原因,而是因为机器学习数据驱动的,而在自底向上的学习中,训练文本中的词是基线,广泛的词汇信息以及它们如何结合,可以从语料库中收集到资源,这是尤其如此,如果语料库资源不仅限于原始文本样本,而是丰富的文本资源。标注语料的范围也不断扩大,包括局部演讲标记了单词的文本,与句子注释与句法短语结构树图资料库,口语语料库与字形和语音合成与数字化声学信号,平行语料库与英语句子与他们在另一种语言的翻译,错误语料,有拼写或语法错误标记英语考试,并与优先修正带注释的,点阵全集,言语和手写系统的输出,其中每个单词注释着一组队列或候选词列,甚至平行注释全集,单词和句子注释着几种类型的语言分析。对于机器学习的目的,它可能在对待机器可读版本的印刷词典时是有效的,作为一种特殊的标注语料库,词有复杂的注释包括语法类和定义文本,假设这广泛的训练数据,更广泛的语言信息是通过机器可学的,包括以下:
  ·英文单词列表,连同频率或可能性;
  ·单词级别或类别:句法、语义或复合;
  ·反复出现单词的组合,习语和搭配模式;
  ·单词组(词语对,词语组)频率或可能性;
  ·单词级别-词性标记组(标记-对,标记-组)频率或可能性;
  ·高级句法组成结构,组成可能;
  ·字典词义(词汇语义)所说的搭配可能性
  总之,基于语料库的方法迫使实际问题的意识在可重用的一个SALT系统工作中很重要,在手工制作一个语言模型中,语言学家可以忽略标点符号和韵律标记,大写,新词或词汇外的生词,分割成单词和句子等问题。
  参考文献:
  [1]Holder,W.(1967),Elements of English Speech.Scolar Press,Menston.
  [2]Sheridan,T.(1968),Course of lectures on elocution.Scolar Press,Menston.
  作者简介:王静(生于1990年1月),女,西安电子科技大学,硕士学位,外国语言学及应用语言学,硕士研究生。
其他文献
目的 :①建立T细胞受体 (TCR)δ、γ基因重排双标记的竞争性聚合酶链反应 (CPCR)—DNA定量方法 ,并对儿童急性淋巴细胞白血病 (ALL)化疗效应差异进行动态定量评价。②为确定PCR产物中ALL恶性细胞
2011年12月23日,全国会计信息化标准化技术委员会(以下称会信标委)成立大会暨2011年会计信息化委员会全体会议在北京召开。会计信息化委员会主席、全国会计信息化标准化技术
目的 :为因肺炎入院治疗的哮喘儿童建立一套长期累积流行病学资料 ,并核实其中部分儿童可能患有未诊断出的哮喘的假设。设计 :对因肺炎入院治疗的一组儿童 ,通过问卷向其医师
2014年1月24日,商务印书馆举行2013年度语言学出版基金评议会。经评议委员会专家评议并投票,董建交《近代官话音韵演变研究》入选基金资助项目。该基金设立于2002年,由商务印
近日,中国人民大学将大学汉语从必修课改为选修课,引发争议,该校一名研究生在网上发表名为《慢一点:人民大学的“国际化”》的日志。有大学生感慨,“汉语都成选修了,为什么英语还是必修?”一时间,大学语文该选修还是必修,成了舆论关注的焦点。(11月10日《扬子晚报》)  选修与必修,并不是决定大学语文命运的分水岭。大学语文现今的尴尬地位,在某种程度上说明这一课程正在被大学学生所抛弃。而被抛弃的背后,却是浮
余从国擅长药厂分销商务平台的医药电子商务策划运营,并成功运营了九州通集团的九州通医药网电子商务网站。余从国仁和(集团)发展有限
本文将近年来所收治的37例婴幼儿肺炎支原体肺炎与同期的年长儿肺炎支原体沛炎及婴幼儿其他病原所致的肺炎做了对比性分析报道。婴幼儿肺炎支原体肺炎发病率近年有所提高,与同
8月20日,《唐山大地震》在台湾地区上映,仅一周时间,票房就已突破了1200万元(新台币)。该票房成绩不仅荣登台湾华语片票房的榜首,而且影片通过生动地刻画出灾难的冷与人间的
目的 探讨孤立性纤维性肿瘤 (SFT)的临床病理特征及诊断要点 ,免疫组化特点。方法 对 10例SFT的临床表现、病理组织学观察及免疫组化标记进行分析。结果  10例SFT发生部位
JAK STAT信号通路主要包括JAK和STAT两大家族。JAK家族是细胞内一组蛋白酪氨酸激酶 ,主要参与造血因子受体超家族导导的信号转导。STAT家族是一组极为重要的转录因子。JAK ST