面向流行病预警的声音数据聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xrong19730911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究课题是《面向流行病预警的声音数据聚类方法研究》,本文的主要研究目的是希望通过人群级别的咳嗽声音数据的搜集与分析处理,预警某一场所呼吸道流行病爆发的趋势。具体实现场景为,于某一个人员密集场所(如实验室,教室)布置麦克风,采集到带有不同人的咳嗽的音频信号,通过音频聚类的方法精确数出一段音频信号的咳嗽人数,通过这个指标来预警呼吸道流行病爆发的趋势。本文主要研究内容为基于研究目的构建的系统,系统采集咳嗽音频信号,而后分为三个模块,第一个模块为数据预处理模块,模块功能为将采集到的音频信号分割为待聚类的各小段,第二个模块为基于ILP算法的数据聚类模块,第三个模块为基于孪生神经网络的数据聚类模块。音频特征结合ILP算法与孪生神经网络是本文所使用到的两类主要研究方法。咳嗽音频数据集采集自开发的小程序以及视频网站,并使用了Noise-X92噪声库,来仿真不同信噪比的音频数据,以验证系统的抗噪声性能。最终实验得出的聚类结果来看,在信噪比较高,即周围环境较为安静的情况下,两类方法都能达到较高的聚类精度,当信噪比较低时,孪生神经网络的方法具有更显著的优势。同时,孪生神经网络也具有其弱点,即需要大量的训练数据集,数据集标注耗费人力且十分困难,实验时间消耗更长,而基于音频特征和ILP算法的研究方法不需要训练数据集,实验时间较快,因此两类方法各有其适用的情况。
其他文献
日常生活中的信息多以文档的形式呈现,挖掘文档中实体对之间的关系更具有实际意义。但是现有的关系抽取方法大多是句子级别的,难以捕捉文本中相隔较远的实体对之间的关系,为了弥补这一点,文档级关系抽取技术应运而生。本文拟从以下三个方面对文档级关系抽取技术展开研究:(1)基于序列的文档级关系抽取方法研究。基于序列的文档级关系抽取方法可以看作是句子级关系抽取方法的延伸,本文在该部分探究了两种具体模型,分别是利用
有效地对网络中海量的文本信息加以利用,方便人们的生活,一直是自然语言处理领域重要的研究内容。作为文本信息结构化的第一步,实体识别的结果直接影响下游任务的效果,这也使其不断迎来各种挑战。其中,细粒度的实体识别旨在不同上下文语境中对实体进行更准确、更丰富的描述,这一点在实体类别数量和类别层次上提出了更高的要求,逐渐成为目前实体识别领域中的研究热点。同时由于人工标注的代价高昂,现有的数据集大多基于远程监
人类学习知识往往遵循由简单到复杂,由基础到尖端的“先修”顺序。错误的学习顺序不仅会加大学习难度,而且容易因为不理解学科概念,“望文生义”,误入歧途。然而这样正确高效学习的顺序往往很难获得,需要领域专家在完成相关方向的探索后进行手工标注。这意味着得到一门学科的“先修”顺序,不仅需要大量的专家投入时间精力,而且往往在时效上难以辅助对前沿研究方向的探索。本文以从学科相关文本中自动化抽取先修关系为切入点,
学位
海量数据上的高效用项集挖掘是一类非常重要的查询,高效用项集挖掘是频繁项集挖掘在项存在权重时的一种扩展,本文处理高效用项集挖掘的两类研究:高效用项集挖掘和top-k高效用项集挖掘。高效用项集挖掘给定效用阈值,返回效用不小于阈值的所有项集,而top-k高效用项集挖掘给定项集的个数k,返回效用最大的k个项集,这两类研究根据不同的条件而定,都能为用户提供相应的决策支持。首先,本文研究海量数据上的高效用项集
学位
社会的发展和技术的进步使得人机交互系统逐渐成为技术研究的热点,其中对话系统是一个重要的方面。而任务型对话又是对话系统中应用面最广的技术之一。随着对话系统应用面的推广,单个领域的对话系统已经不能满足实际需求了,多领域的对话系统及其相关技术的研究逐渐成为当前研究和应用的重点,而在此基础之上的模型跨语言能力的迁移泛化又是当前国际化不断推进带来的新的具有实际应用场景的研究方向。本文首先对现有的公开任务型对
学位
随着自然语言处理技术的发展,自然语言处理的应用也越来越广泛,比如在聊天机器人、智能搜索、智能推荐等应用中,都运用上了自然语言处理的技术。此外,国家之间的交流也越来越频繁,人们对于各种语言的深层语义理解的需求也越来越大。语义依存图分析任务便是针对该需求所提出的任务之一。语义依存图以图的形式将语义信息进行了有序地组合,通过依存弧和语义标签定义了若干对语义单元,从而可以直接回答何时(when)、何地(w
暴力检测在音视频检测领域具有十分重要的地位,有着重大的研究意义。在安防领域快速检测出暴力行为,有利于减少人员伤害。在体育竞技方面检测出暴力行为有助于比赛公平性。但是随着互联网和流媒体的发展,人工检测无法满足速度的要求,这就需要一种更好的方法来完成暴力检测。当下大多数暴力检测主要在视频方面,检测种类单一,忽略了其他模态的暴力检测,导致暴力检测率不高,因此需要一种结合多种模态特征的暴力检测技术。首先,