集外词相关论文
语音检索是多媒体信息检索的重要研究方向,基于大词汇连续语音识别的检索算法是当前语音检索中的主流算法。集外词是一些经常被用......
现有的汉维间机器翻译研究工作主要集中在基于统计的方法。最近,神经机器翻译已经在多个语言对上取得了比较可观的结果并且超过了......
提出了利用HTMLParser和PDFBox工具包来编程实现对Web网页文本内容自动提取和PDF文档格式的转换并这些数据进行处理来适合HTK语言......
发音字典是语音识别系统的重要组成部分,字典词汇量不足将导致高集外词率,降低语音识别性能。提出一种自动扩展字典的新方法,该方......
蒙古语语音识别系统的词表很难覆盖所有的蒙古文单词,并且随着社会的发展,蒙古文的新词和外来词也越来越多.为了解决蒙古语语音关......
鉴于维吾尔语丰富的形态变化产生大量单词引起的集外词(out of vocabulary,OOV)问题,为了定量研究OOV对维吾尔语语音识别的影响,采用......
针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音......
语音查询项检索是指根据用户输入的查询项,在大量语音资源中搜索并返回相关信息的过程,在军事与信息安全、语音资源的分类与管理以......
在神经机器翻译中,因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器......
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外......
为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识......
针对语音关键词检索中的集外词问题,提出基于最大互信息-最小描述长度(MMI-MDL)的子词集构建算法。根据子词对的互信息挑选聚合对,通......
针对汉语语音关键词检索任务中的集外词检索提出了一种基于局部声学信息的改进算法。在汉语语音识别和语音关键词检索任务中,由于......
基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别......
期刊
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种......
针对关键词中的集外词检索任务,提出采用音素、音节、词片三种子词单元进行多流信息的联合检索算法,其中对基于音素的语音检索(Spoken......
机器翻译是利用计算机技术实现源语言到目标语言的转换,是自然语言处理研究领域中最具挑战性的综合性前沿课题之一,有十分重要的研......