语音识别与HMM原理

来源 :成长·读写月刊 | 被引量 : 0次 | 上传用户:lupt2681006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】本文利用“隐含马尔可夫模型”(Hidden Markov Model)根据接收到的数字信号来推测说话者想表达的意思来研究语音识别问题。
  【关键词】语言识别;隐含马尔可夫模型
  一、语言的实质
  人们平时在说话时,脑子是一个信息源;人们的喉咙(声带),空气,就是如电线和光缆般的信道;听众耳朵的就是接收端(信宿),而听到的声音就是传送过来的信号;语言在这一过程中充当信息载体的角色,即消息。这就是人类通过语言交流的实质。
  二、语音识别
  语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面子语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。
  三、HMM原理
  隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:
  1.隐含状态S
  是马尔可夫模型中实际所隐含的状态,这些状态之间满足马尔可夫性质。这些状态通常无法通过直接观测而得到。
  2.可观测状态O
  在模型中与隐含状态相关联,可通过直接观测而得到,可观测状态的数目不一定要和隐含状态的数目一致。
  3.初始状态概率矩阵π
  表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1、P(S2)=P2、P(S3)=p3,则初始状态概率矩阵 π=[p1 p2 p3].
  4.隐含状态转移概率矩阵A。
  描述了HMM模型中各个状态之间的转移概率。其中Aij = P( Sj | Si ),1≤i,,j≤N.
  表示在 t 时刻、状态为 Si 的条件下,在 t+1 时刻状态是 Sj 的概率。
  5.观测状态转移概率矩阵 B
  令N代表隐含状态数目,M代表可观测状态数目,则:
  Bij=P(Oi | Sj), 1≤i≤M,1≤j≤N.
  表示在 t 时刻、隐含状态是 Sj 条件下,观察状态为Oi的概率。
  总结:一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展,添加了可观测状态集合和这些状态与隐含状态之间的概率关系。
  当人们观测到语音信号o1,o2,o3时,要根据这组信号推测出发送的句子s1,s2,s3。显然,人们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知o1,o2,o3,...的情况下,求使得条件概率:
  P(s1,s2,s3,...|o1,o2,o3....)达到最大值的那个句子s1,s2,s3,...。例如,当人们听见(ni shi shui a),按经验、语言环境就能判断出对方所说的是“你是谁啊”的概率最大,而不是其他的句子。
  四、HMM基本步骤
  对HMM来说,有如下三个重要假设,尽管这些假设是不现实的。
  假设1:马尔可夫假设(状态构成一阶马尔可夫链)
  P(Xi | Xi-1…X1)=P(Xi | Xi-1)
  假设2:不动性假设(状态与具体时间无关)
  P(Xi+1 | Xi)=P(Xj+1 | Xj),?坌i,j
  假设3:输出独立性假设(输出仅与当前状态有关)
  P(O1,…,OT | X1,…,XT)=?装P(Ot | Xt)
  隐藏的状态和可观察到的状态之间有一种概率上的关系,也就是说某种隐藏状态H被认为是某个可以观察的状态O1是有概率的,假设为 P(O1 | H)。如果可以观察的状态有3种,那么很显然 P(O1 | H)+P(O2 | H)+ P(O3 | H)=1。
  这样,我们也可以得到一个另一个矩阵,称为混淆矩阵 (confusion matrix)。这个矩阵的内容是某个隐藏的状态被分别观察成几种不同的可以观察的状态的概率。
  下图明确的表示出模型的演化,其中绿色的圆圈表示隐藏状态,紫色圆圈表示可观察到状态,箭头表示状态之间的依存概率,一个HMM可用一个5元组{N,M,π,A,B}表示,其中N表示隐藏状态的数量,我们要么知道确切的值,要么猜测该值,M表示可观测状态的数量,可以通过训练集获得,π={πi}为初始状态概率,A={aij}为隐藏状态的转移矩阵Pr(xt(i) | xt-1(j)),B={bik}表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵,Pr(ot(i) | xt(j))。在狀态转移矩阵和混淆矩阵中的每个概率都是时间无关的,即当系统演化时,这些矩阵并不随时间改变。对于一个N和M固定的HMM来说,用λ={π,A,B}表示HMM参数。
  在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。
  五、向前向后算法
  下面介绍前向后向算法的参数学习过程,在学习的过程中,不断更新HMM的参数,从而使得P(O | λ)最大。我们假设初始的 HMM 参数为λ={π,A,B},首先计算前向变量?琢和后向变量 ?茁,再根据刚刚介绍的公式计算期望?孜和ζ,最后,根据下面的3个重估计公式更新HMM参数。
  参考文献:
  [1]张建华.基于深度学习的语音识别应用研究[D].北京邮电大学,2015.
  [2]周茉.基于HMM和ANN的汉语数字语音识别算法研究[D].华中师范大学,2006.
其他文献
【摘 要】计算机网络是计算机科学与技术与网络工程专业开设的一门综合基础课程,也是信息类专业必开的一门专业课程。该课程理论与实验结合度大,实验要求高,原理复杂,使很多高校在开设计算机网络实验课程时效果不明显,学生学习难度大。信息类其他专业的实验课往往依附于理论课而出现,达不到信息类专业的培养目标与要求,因此开设独立设置实验课程才能满足信息类专业的教学要求。本文结合吉首大学信息科学与工程学院开设的《计
期刊
【摘 要】在信息时代,各种现代科技在教学领域有着一定的应用。其中在初中教学中,各种高新科技的应用可以有效的提高学生的学习兴趣,在根本上提高整体的教学质量。在初中历史教学中应用微课教学模式,可以加深学生对各种历史知识的了解,继而通过直观的方式了解各种史实事件,充分的提升了学生的历史学习兴趣。对此,本文对微课在历史教学中的相关应用进行了探究与分析。  【关键词】微课;初中历史;应用  历史知识的学习有
期刊
【摘 要】现阶段科技发展与网络应用已经逐步完善,在数据信息的支持下,网络环境日益完善,面临庞大的云计算环,对计算计算数据挖掘服务提出了全新要求。本文通过对云计算背景中数据挖掘服务模式结构分析,总结了建模流程与具体应用中体系结构与服务过程。  【关键词】云计算;数据挖掘;模式研究  一、云计算背景中数据挖掘服务模式结构  挖掘服务是基于挖掘功能与行为的方式。而具体的服务内容包括:数据的选择、数据预处
期刊
【摘 要】在高职学校中,英语学科的地位是较为重要的,广大教师为了提升英语教学的有效性,对教学方法进行了改革,将原版英文电影引入到教学之中是一种全新的尝试,对提升学生学习英语的兴趣,保证学习的效果均能够起到一定的效果。本文所要探析的即是在高职英语教学中有效应用原版英文电影的可行之策。  【关键词】高职英语;原版英文电影;教学功能  序 言  在当前时期,高职学生的英语水平是普遍不高的,而且很多学生对
期刊
【摘 要】三维动画是现阶段网络信息技术发展的重点,依据现阶段网络信息技术发展情况为基础,结合近年来三维动画技术应用特点,分析其在前期、中期以及后期的制作流程管理,并且基础优质的操作方案。  【关键词】三维动画;网络;信息技术;制作流程  随着现代社会中网络信息技术的不断推广和优化,三维电脑动画技术在动画片制作中得到了有效的推广和应用,三维动画也成为现阶段年轻人喜爱的动画艺术,儿童也越来越期待更多喜
期刊
小学信息技术课程的目标在于学生通过动手与动脑相结合的信息技术体验与学习,初步掌握应用信息技术的基本技能,结合生活与学习实际理解信息技术的重要性,开始形成健康的应用信息技术的习惯,勇于积极尝试应用信息技术富于个性地解决实际问题。然而在教学中,我发现部分学生目的不明确,操作机械化,只知道按照老师讲的步骤操作,没有完全理解所学知识,所以学习效率不高;而且信息技术课程每周只有一节课,学生学习间隔时间长,这
期刊
【摘 要】识字教学是小学语文教学中最为基础的环节,运用多媒体技术能够有效提升教学质量与效率。文章以此为前提分析了多媒体在其中的运用,有利于语文教学水平的提升。  【关键词】多媒体;小学;语文;识字教学  小学阶段的识字教学是语文课程教学中最为基础的教学环节,因为小学生年龄普遍较小,所以很难集中注意力,这也就为语文识字教学带来了难度,长此以往也会影响语文质量。为了解决这一问题,教师可以通过多媒体开展
期刊
【摘 要】本文就网络语言的跨文化特征进行了分析, 特别是汉语普通话、方言和外语之间的跨文化特征,揭示了网络语言的跨文化特点及网络时代下人们的文化交流需求,进而探索其规律及影响因素。  【关键词】网络语言;跨文化交际  前言  网络掀开了跨文化交际研究的新视域,网络交际是当代真正意义上的跨文化交际。由于网络的便捷性,不同文化背景的人们都汇聚在这个虚拟的网络世界里,又由于交流语言、交流手段、交流语境的
期刊
【摘 要】由于传统的教学模式已经不能适应现代教学的发展,加之计算机网络技术的不断完善,计算机网络虚拟实验教学就成为了高校实验教学的主要教学模式,其对于课程效率、跨区域交流、节省实验器材等诸多方面有重要的作用,本文通过对计算机网络模拟教学模式优势的评析以及实现步骤的介绍,旨在以此来促进网络虚拟实验教学模式被更多人们所了解,以期其能在我国的高等院校普及。  【关键词】网络虚拟教学;模式;优势;实现  
期刊
【摘 要】农市是基于移动互联网下,结合O2O的运营模式,建立数据互通共享机制,消除信息 孤岛。通过手机app移动终端建立起农村与城市间信息流通的桥梁,给厌倦城市或想过慢节奏的市民提供慢节奏的生活,使城市中的人远离城市的喧嚣,有更多的时间散步,有更多的綠地休闲;让身处城市的人却也能享受郊区自由的生活,把一种规律、健康的幸福生活,带给每一个人。农市致力于为厌倦城市的人提供一种能在郊区生活的便利,在让想
期刊