端到端模型相关论文
光学乐谱识别(Optical Music Recognition,OMR)是一个研究如何通过计算方式自动读取文档中的音乐符号的研究领域。随着科技的不断发......
机器阅读理解任务在近年来备受关注,它赋予计算机从文本数据中获取知识和回答问题的能力。如何让机器理解自然语言是人工智能领域长......
智能设备的普及,让人们越来越感受到语音交互的便利。作为一种非常自然的人机交互方法,自动语音识别自二十世纪七十年代以来一直是......
人工智能技术发展至今,人机交互方式几经迭代,从最早的键盘鼠标方式到后来的触屏手写再到现如今的智能语音交互方式,对人们使用智......
骨架数据已被广泛用于动作识别任务,因为它们可以稳定地适应动态环境和复杂的背景。在现有方法中,骨骼数据中的关节和骨骼信息都被......
端到端(End-to-End)框架是一种基于深度神经网络可直接预测语音信号和目标语言字符的概率模型,从原始的数据输入到结果输出,中间的处理......
实时语音翻译技术作为翻译技术的分支之一,具有非常丰富的应用前景,例如外语视频的字幕生成,国际会议同传翻译等等。然而,不同于相......
当今社会,随着第二语言学习特别是英语学习越来越收到广泛关注,人们对计算机辅助语言学习系统的要求越来越高。错误读音检测与诊断......
文字是与社会生活息息相关的感知信息来源,相较于观感图像中的其他内容,文字包含着更精简的语义信息。随着5G技术与深度视觉网络的......
船舶检测与识别技术的发展对海上监视及服务工作起重要作用,目前卫星遥感图像船舶目标检测存在背景复杂、船舶尺度变化大等问题,妨碍......
日常生活中,人们的阅读量越来越多,但获取的有效信息却越来越少,这本质上源于信息过载。文本摘要技术可以帮助读者快速了解文章主......
随着移动通信的高速发展,嘈杂环境下的语音交流问题已经变成一个迫切需要解决的问题,如何有效的去除背景噪声对语音通信的影响,日......
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知......
学位
医学影像配准是医学影像分析领域中的重要问题。医学影像配准的主要任务是将来自不同成像设备或不同时间、深度、视角的图像对应像......
随着计算机科学技术的快速发展,人们对人机自由交互的需求日益增大,语音识别技术作为实现人机智能交互的重要技术之一,迅速成为了......
文本自动撰写在自然语言处理中是一个重要的研究领域,可通过人工智能的方法来提升文本的生成结果.目前主流的生成方法是基于深度学......
老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理.现有分词算法主要为首先使用规则进行音节切分......
针对传统实体关系标注方法存在效率低下、错误传播、实体冗余等问题,对于某些领域语料中存在"一实体(主实体)同时与多个实体之间存......
已有的语音分离方法大多都是通过混合信号的频域表示来处理分离问题,然而这些方法一直存在着包括信号的相位与幅度的解耦、语音分......
协同视觉显著性检测是基于人类视觉注意力机制,旨在捕获一组相关图像中的公共显著目标,在协同分割和目标检测等领域广泛应用。对现......
作为自然语言处理的一个研究分支,机器阅读理解近年来不断受到研究者的关注。随着旧的测评数据集不断被攻克,阅读理解领域涌现了大......
深度学习在图像识别的现存模型中,都有检测和识别两个过程,且需借助复杂的网络结构、大量的文本框标注来提高识别准确率。文中针对......
短波无线电是长距离通信中一种不可或缺的方法,其中,摩尔斯(Morse)电报凭借其简单的编码方式和强抗干扰能力,广泛地应用在航空通信......
随着互联网上新闻媒体和社交媒体的快速发展,这些网络媒体中存在着海量的中文文本,挖掘出文本中的重要信息具有巨大的应用价值,不......
智能化的时代正在加速到来,语音作为最自然便捷的交流方式,是推动生活与工作智能化的重要手段。语音识别(Automatic Speech Recogn......
随着互联网技术的发展和开源社区的兴起,开源代码的数量急剧增加,从开源社区中发掘出有用信息需要耗费大量的时间和精力。自动摘要......
随着信息技术的快速发展,视频直播、语音聊天等与“声音”有关的社交方式越来越受欢迎,而语音通信质量也愈发受到人们的关注和重视......
光学乐谱识别(Optical Music Recognition,OMR)是实现乐谱图像数字化的重要途径,在计算机音乐、数字音乐图书馆、计算机辅助音乐教......
句法分析作为自然语言处理领域的一项基础工作,是机器翻译、自动问答等自然语言处理上游任务的核心支撑,因此,具有非常重要的研究......
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务.传统的统计模型......
摘要:端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文......
构图是决定数字图像美学质量的重要因素,而现有的计算机优化算法在这一领域还存在整体性、视觉平衡感不足等问题。针对这一问题,文......
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端......
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量......
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型......
近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使......
在现代信息科技不断发展和进步的21世纪,基于生物特征进行身份认证的技术也在不断改进和日益成熟,声纹识别因具有远距离、多设备采......
雷达能够利用电磁波对其作用范围内的物体进行检测、跟踪和测距,在军事应用和民事应用方面都有着极为重要的地位。随着现代科学技......
文本自动摘要是人工智能和自然语言处理领域的一个重要任务和研究热点。随着互联网上信息的爆炸式增长,人们对文本自动摘要系统的......
在现实视频监控场景,摄像头为了能够最大区域的覆盖场所,一般会选择将其安放在比较高的角落,这导致拍摄到的图像画质受到严重影响,......
针对传统i-vector声纹识别模型在背景噪声急剧增加时泛化弱的问题,设计一种能学习丰富频域信息的卷积神经网络,并结合三元组损失构......
为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特......
先序关系指知识主题之间学习的先后依赖关系。已有的先序关系挖掘方法大多是流线型的方式,易导致错误累计,且严重依赖可能导致错误......
语音信号包含信息丰富并且使用便捷,是日常交流最常用的方式。语音交互利用语音交流形成人与机器交互的新方式,使得机器使用更为便......