您现在的位置:首页 >> 项目讲座 >> 语音/图像/视频 >> 内容

matlab coursework代做|短时幅度谱估计在语音增强中的应用

时间:2017-4-25 3:51:15 点击:

  核心提示:matlab论文代写,matlab coursework代做,matlab assignment代做...

语音情感识别技术是人工智能技术重要的发展方向,它已是在亿万百姓中普及的关键技术,并且必将成为信息产业的标志性技术重要特征。语音识别具有广泛的市场前景,它可应用于自动远程电话服务中心、远程教学和婴儿教育、辅助临床精神分裂症的诊断和治疗等。在此背景下,在对语音情感识别技术进行全面、深入研究的基础上,重点进行了语音情感特征参数的提取,待测语音情感信号与已知模板的匹配研究,对现有的研究成果加以改进和提高,并将使其应用到人们的日常生活当中,以方便人们的日常生活、提高人们的生活质量。

本文首先详细介绍了语音情感识别的研究与发展状况,在语音情感识别技术的发展历史和目前存在的问题等方面做了很好地总结,为进一步的语音情感识别研究打下了良好的基础。然后详细的讨论了语音情感识别系统的基本实现方法,进而提出了基于语音声学特征情感信息识别系统的实现方案并获得了比较高的识别率。

1.1 课题背景

情感是人类进行交流时的最自然最直接的表现方式,是人类内心活动的真实表露。当前人类已经开始进入了信息化时代,用现代手段研究语音情感的识别技术,可以使人们能更加有效地判断说话人的情感强度,正确的判断说话人的心情。情感识别技术是计算机技术重要的发展方向,它已成为计算机在亿万百姓中普及的关键技术,并且必将成为信息产业的标志性技术和计算机的重要[1]。情感识别具有广泛的市场前景,它可应用于自动远程电话服务中心,及时发现客户的不满情绪;用于远程教学和婴儿教育,及时识别学生的情绪并做出适当的处理,从而提高教学教育质量;用于辅助临床精神分裂症的诊断和治疗;此外也可以用于刑事侦察中自动的检测犯罪嫌疑人的心理状态,辅助测谎,例如,说谎者常常会企图隐藏其真实的情感,如果能够自动识别其真实情感状态并同时设法发现其隐藏真实情感的企图,就能够判断出他是否在说谎或者在隐瞒某些事实。自动语音情感识别的研究,不但可以推动计算机技术的进一步发展,它也将大大提高人们的工作和学习效率,更高效地帮助人们解决问题,同时也将进一步丰富人类的生活,提高人们的生活质量。

1.2 国内外研究现状

情感是通过语音表达出来的,是因为语音中包含有能够体现情感特征的参数。人类情感的变化是通过情感特征参数的差异而体现出来的[2]。因此从语音信号中提取出这些能够反映情感的特征参数的研究,对于语音情感识别具有极为重要的意义。目前很多文献对如何提取语音中的情感特征参数做了大量的研究,主要在基频构造、对数能量构造、共振峰构造、语速等方面对情感语音加以不同的考虑。

情感信息处理已成为提高人机交互能力的一个重要研究课题,随着信息技术的高速发展,人类对计算机的依赖性的不断增强。多媒体计算机系统情感信息的研究越来越受到研究者的重视,分析情感特征、判断和模拟说话人的喜怒哀乐成为一个意义重大的研究课题之一。

目前,关于语音情感特征参数的研究正处在不断的深入之中,而其中语音的情感特征参数因为涉及到不同语种之间的差异,发展也有所不同[3]

国外斯坦福大学的ReevesNass通过研究发现,在人机交互中需要解决的问题同人和人交流中是一致的,最关键的都是“情感智能”的能力。早在1972,Williams发现人的情感变化对语音的基音轮廓有很大的影响,这是国外最早的语音情感方面的研究之一;1990年,麻省理工大学多媒体实验室构造了一个情感编辑器对外界各种情感信号进行采样,如人体的生理信号、脸部表情信号、语音信号来识别各种情感,并让机器对各种情感做出适当的反应;1996年,日本东京Seikei大学提出情感空间的概念并建立了语音情感模型;2000,Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别。近两年,采用神经网络与隐马尔可夫模型为语音情感识别建模也取得一定的成功。

而在国内,情感识别发展的比较晚,但是经过了30多年的发展,我国的语音识别技术的研究水平已经基本上与国外同步。而且在汉语语音识别技术上,还有自己的特点与优势,并达到了国际先进水平。目前国内从事语音识别研究的机构包括:清华大学计算机科学与技术系,清华大学电子工程系,南京大学计算机系,上海交通大学,中科院自动化所,中科院声学所,哈尔滨工业大学等。在1998年的863测试评比中,清华大学电子工程系以王作英教授为首的课题组完成的汉语连续语音识别系统的字识别率达到90%以上。同时代表了目前国内的先进水平,在汉语小词表语音识别及应用方面,清华大学电子工程系以刘润生教授为首的课题组,已经推出了基于非特定人汉语数码语音识别的语音拨号电话机,并正在从事语音识别专用芯片的设计研究。2003年,北京科技大学信息工程学院提出基于BDI Agent技术的情感机器人语音识别技术研究方法;微软亚洲研究院,台湾的一些大学和研究所也进行该方面的研究;同时,国家自然科学基金委也立项资助哈工大进行心理紧张等情况下的Robust语音识别研究;2004年,东南大学赵力申请了关于语音信号中情感特征分析与建模的国家自然科学基金;近期,江苏大学计算机学院也启动的语音情感方面的研究。

1.3 研究价值及意义

研究价值:情感是人类进行交流时的最自然最直接的表现方式,是人类内心活动的真实表露。当前人类已经开始进入了信息化时代,用现代手段研究语音情感的识别技术,可以使人们从语音中自动识别说话者的情感状态,这种技术不但可以推动计算机技术的进一步发展,它也将大大提高人们的工作和学习效率,更高效地帮助人们解决问题,同时也将进一步丰富人类的生活,提高人们的生活质量。

研究意义:情感信息识别技术是信息社会朝着智能化和自动化方向发展的关键技术之一,具有重要的研究意义和实用价值。经过三十多年的艰苦探索和研究,情感信息识别技术研究获得了极大的发展,在不就的将来以情感信息识别技术为核心的人工智能产品将会逐步应用到人们的日常生活中,它将为我们的工作和生活方式带来一场新的革命。

1.4 情感识别系统

1.4.1 情感识别系统的概述

语音情感识别是建立在对语音信号的产生机制深入研究与分析的基础上,对语音中反映个人情感信息的一些特征参数进行提取,并利用这些参数采用相应模式识别方法确定语音情感状态的技术,语音情感识别系统有以下几部分组成:情感语音输入、语音处理、情感处理、语音情感识别结果。其主要处理目的是通过提取语音信号中的情感参数对隐藏在语句中的情感信息进行识别。系统框图如图1-1所示。

1-1 情感识别系统框图

(1) 情感语音输入:

使用的情感语料采用录音方法采集,共获取喜、哀、平常3个情感类别。情感语音均在静音环境,8kHz采样频率、8位精度、单声道录制.录音完成后以文件形式保存于硬盘中。语音数据的导入由MATLAB7.1下的wavread(‘文件名’)函数完成,通过wavread函数导入语音数据之后,生成一组一维矩阵,该矩阵存放的就是在采样点上的语音数据。

(2) 语音信号的预处理:

为了获的比较精确的语音特征参数。我们首先对输入的语音信号进行预处理。端点检测是语音识别的第一步,目的是根据语音的特点及其参数的统计规律从包含语音的一段信号中找出语音的起始点及结束点,将语音信号从背景噪音中分离出来,从而只存储和处理有效语音信号。在计算各个系数之前要先将语音信号进行分处理。语音信号是瞬时变化的,但在1020ms内是相对稳定的,语音采样频率8kHz,则定义帧长256个采样点,帧移为128个采样点。语音处理中的窗是与短时分析紧密联系的,窗的作用是为了提取采样的语音信号的一部分(短时语音序列)进行研究,窗之外的部分则假设为零。

(3) 特征参数的提取

语音特征参数的提取是语音处理中十分重要的一步。语音特征反映了语音波形的主要信息以及说话人的发音特点,语音信号是冗余度很高的随机信号,在进行语音信号处理的时候,必须经过特征提取才能有效地降低信号的冗余度,而语音特征的提取又是通过对语音信号的分析来获得表征语音信号的参数的。因此表征语音信号参数的准确性是语音处理正确的保证,而提取的语音特征参数的复杂度又成为能否实时提取语音特征的关键。

(4) 语音情感的训练模块

情感识别无论采用什么模型和算法,都有一个模型的训练问题。因为从本质上讲,语音的情感识别的过程就是一个模板匹配的过程,模板训练的好坏直接关系到语音识别系统识别率的高低。而模板训练就是从已知模型中获取表征该模式本质特征的模板参数。

(5) 语音情感识别模块

情感识别模块就是根据模板匹配的原则,计算未知语音模板与语音模板库中的每一个模板的距离测度,从而得到最佳的匹配模式。

(6) 识别匹配方法

模板匹配法是多维模式识别系统中最常用的一种相似度计算方法。在训练过程中,经过特征提取和特征维数的压缩,并采用聚0类方法或其他方法,针对每个模式类各产生一个或几个模板(Template),识别阶段将待识别模式的特征矢量与各模板进行相似度计算,然后判别它属于哪个类。

1.4.2 情感识别面临的问题

尽管情感信息识别的研究工作迄今已30多年,在语音情感信息识别方面取得了一系列的进展,但仍然面临着不少需要改进和解决的地方,其面临问题概括如下:

(1) 情感计算及人工心理理论是新型交叉学科,很多理论方法还很不成熟。人机交互与情感识别的对象一般是自然人,与较小素材的人工材料实验样本有一定差异。所以有必要努力扩展语音情感库的范畴,由特定人群到普通人群,由特定环境到普通环境。

(2) 要对情感语音的构成进行进一步深入的分析,找出对于情感的表达有贡献的新的特征参数,并将其加入到识别参数中,以获得更高的识别率;进一步研究更合理的语音情感分类识别方法,使实时语音情感识别更方便、更有效。

(3) 研究多模式的情感识别。情感表现是由面部表情、语音情感和身体姿势三个方面体现的,因此情感交流是多模式信息组合。研究组合多模式的识别将能大大提高识别效率。

(4) 研究利用语义的语音情感识别。由于说话人表达情感有其特定的环境,这样在语音情感识别的研究中要考虑语义所具有的情感倾向性。这也是该研究课题的一个需要改进的地方。

(5) 要在不同时间尺度上研究语音情感。情感同时间尺度有密切的关系,而目前仅局限于较短时间域研究,要通过话音参数对人的情感有更多了解,需要进行多尺度分析。需要在较短的时间尺度上把握人的某个时刻状态,也要更长时间尺度上把握某段时间内的心情。此项研究将对人机交互能力提高有着重要意义。

虽然目前还不能做到让情感信息识别随心所欲的地步。但无论如何,情感信息识别技术正在迅速发展中,上述需要改进和解决的问题会一一化解。

1.5 论文框架和各部分的主要内容

本文是针对语音情感识别系统的主要技难点,主要在语音情感信号特征参数的提取和情感特征参数以及其模板匹配的整个情感识别过程中做了大量的工作。除此之外,对端点检测以及线性预测系数也作了不少工作。现在简单的陈述一下本文的工作安排:

第一章是引言,在简要介绍了本课题的选题背景的基础上,概述了语音情感识别系统的结构及其当前所面临的问题。

第二章主要讲述了语音情感信号产生的基本原理及其特征参数的提取。在特征参数的提取过程中,对基频的提取采用的是倒谱法。

第三章主要讲述了整个语音情感信号的识别过程,从最初语音数据的导入到语音情感模板的匹配都进行了详细的介绍。在进行语音的端点检测时,采用了短时能量的方法。而语音情感模板的匹配则采用了欧氏距离法。

第四章主要是对语音情感的识别结果进行了分析,在现有的实验条件的基础上,对实验结果进行详细地分析比较,并对其识别率进行了相应的统计。

第五章介绍了本课题继续研究的前景和方向,及其本方案尚需改进的不足之处。

 

2.1 课题继续研究的前景和方向

本系统已经基本成形,它的应用前景是无限的,可用于人们的日常生活(自动远程电话服务中心;远程教学和婴儿教;辅助临床精神分裂症的诊断和治疗;此外也可以用于刑事侦察中),会极大地方便人们的日常生活、提高人们的生活质量。由于语音情感识别技术的实用性及其它始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展,因此长期地、深深地吸引着广大的学者。确定了今后它的发展方向:

(1) 自动远程电话服务中心:通过情感识别系统能及时发现客户的不满情绪,以便做出及时的处理及沟通。

(2) 远程教学和婴儿教育:利用该系统可以及时识别学生的情绪并做出适当的处理,从而提高教学教育质量。

(3) 医学:该系统也可以用于辅助临床精神分裂症的诊断和治疗。

(4) 侦察:此外还可以用于刑事侦察中自动的检测犯罪嫌疑人的心理状态,辅助测谎,例如,说谎者常常会企图隐藏其真实的情感,如果能够自动识别其真实情感状态并同时设法发现其隐藏真实情感的企图,就能够判断出他是否在说谎或者在隐瞒某些事实。

2.2 方案的不足与改进

到目前为止,本系统还存在以下的不足之处:

(1) 语料库的局限性:情感语料的获得比较有局限性,只是针对的特定环境下的特定人群。

(2) 时间响应性:由于实验的局限性,计算机需要处理大量的数据,在此过程中用到了多重嵌套循环,导致其运行速度较慢。

(3) 对环境的适应性:如果环境噪声很大,或偶尔出现较大的噪声,则会出现误识。这个不足之处还没有很有效的解决方法。

(4) 识别率:系统的识别率方面还有待于提高。

 

 

 

作者:matlab coursework代做 来源:matlab coursework代做
  • 您是如何找到本站的?
  • 百度搜索
  • Google搜索
  • 查阅资料过程中
  • 论坛发现
  • 百度贴吧发现
  • 朋友介绍
本站最新成功开发工程项目案例
相关评论
发表我的评论
  • 大名:
  • 内容:
  • MATLAB代做,MATLAB专业代做,MATLAB淘宝代做(www.hslogic.com) © 2018 版权所有 All Rights Reserved.
  • Email:highspeed_logic@163.com 站长QQ: 1224848052

    专业代做/代写/承接、MATLAB、SIMULINK、FPGA项目、博士/硕士/本科毕业设计、课题设计、论文,毕业论文,Coursework、Eassy、Assignment