基于语音信号的抑郁症识别方法概述

betball贝博app 语音识别抑郁症 393 次浏览 没有评论
  • 研究方法
  • 实验设计
  • 有效特征的筛选
  • 模型构建
  • 语音处理基础
  • 语音的概念
  • 发音原理
  • 抑郁人群的语言行为特点
  • 语音特征
  • 语音信号的特点
  • 对语音信号进行基频化处理
  • 语音信号的“短时谱”
  • 基音周期
  • 语音信号的预处理
  • 预处理加重
  • 加窗分帧
  • 端点检测
  • 语音信号的合成编码分析
  • 短时时域分析
  • 频域分析
  • 语音信号特征提取
  • Mel倒谱系数
  • 参考文献
  • 摘要

    本文选用AVEC 2014情感语料库作为实验数据,并利用Matlab工具对语音数据进行预加重、加窗分帧、端点检测等预处理,同时本实验利用慕尼黑工业大学的EEyben等人开发的开放式工具包openSMILE对样本中的语音信号进行特征提取,通过特征分析,选择提取短时能量、共振峰、MFCC等特征用于抑郁症的识别。在分类器的选择上,本文将支持向量回归(Support Vector Regression,SVR)模型用于维度语音抑郁症识别,同时采用了对比贝叶斯线性回归(Bayesian Linear Regression,BLR)算法,并分别对共振峰、MFCC、混合特征进行分类,结果表明SVR算法模型具有较好的识别效果

    国内外研究现状

    美国有两例抑郁症诊断案例,都是通过生理信号检测出来的,一是通过分子标记血清素水平,二是检测报告中5一羟基色氨酸水平较低的患者因患抑郁症而自杀身亡。脑源性神经营养因子(BDNF)与接触压力之间的交互作用与抑郁症患病的风险增加息息相关。抑郁症也与患者的海马体体积相关在国内,几乎更多的是依赖患者的表情以及文字来诊断

    关键问题

    如何设计实验获得高质量的语音数据

    有必要针对重要因素进行实验设计,研究它们的影响,并严格控制实验流程以获取大样本高质量的语音数据。

    实验因素的分析和特征紧密相关,因此在固定特征的条件下,讨论言语方式和情绪效价这两个重要因素对抑郁识别的影响。若能发现一致性的规律,我们就能确定哪种方式更有利于抑郁识别。

    如何在众多纷杂的语音特征中确定有效特征

    包括两个方面:在已有的特征中确定有效特征和寻找新的特征。早期的研究中这两个问题的主要探索方法为尝试。尝试利用经验知识找到特征的分类效果,或者尝试不同特征组合的分类能力,但这在近乎无限多的语音特征面前是不太现实的。近些年研究人员尝试利用特征选择算法来寻找有效特征,但这种做法受到特征选择结果不稳定的困扰,对数据敏感。语音数据中部分样本的变化也会导致最优特征子集发生较大的变化。目前无法确定有效特征集并在大样本数据上获得较好的分类正确率。

    如何构建高效的识别模型

    研究人员尝试了隐马尔可夫模型HMM,GMM,SVM等多种方式以及他们的组合,但目前的识别效果并不理想。部分研究给出的分类正确率较高,但是由于被试数量比较少,导致模型的可信度比较低。

    理论基础

    传统的识别工具

    传统的诊断工具包括面试评估,或者汉密尔顿抑郁评定量表、贝克抑郁症量表等方式。这种分类分级的系统所得到的结果很笼统,即只能告诉患者所患的是高或低水平的抑郁症

    多模态抑郁症分析

    当前认知神经科学的一个重要发展就是利用多种神经表象技术来研究,例如事件相关脑电位技术[241(Event—Related Brain Potentials,简称ERP), 功能磁共振成像技术(Functional MagneticResonance ImagiIag,简称FMⅪ)和正电子发射层析成像技术(Positron Emission Tomography, 简称PET)等,对人脑的认知操作活动模式进行无创性的结构和功能成像

    回归模型

    贝叶斯线性回归,高斯过程回归,支持向量回归。

    语音抑郁识别的研究历史和现状

    探索阶段

  • 1971 年,Hinchliffe等人尝试把语速(speaking rate)和停顿(pause)这两个指标用来评估抑郁患者的防御机制,这说明作者已经观察到抑郁人群语音的特殊性。
  • 1976 年,Szabadi等人报道了对 8 名被试 2 个月的跟踪研究,他们认为停顿时间的延长(elongation of pause-time)可以作为衡量精神运动阻滞(motor retardation)的客观指标,而精神运动阻滞正是抑郁症的重要特征之一。
  • 1987年Nilsonne对16名抑郁症患者进行跟踪研究,对比发现基频分布标准差等语音特性和抑郁状态显著相关,且认为声学客观指标和整体的抑郁水平更相关而非单个的抑郁症状:如迟滞和激越
  • 萌发阶段

  • 1993年Flint等人对比了重度抑郁症和帕金森综合征对语音的影响,发现这两类病人和正常人相比嗓音的起始时间更短,第二共振峰迁移变小,但抑郁症和帕金森两组人群间没有显著差异。
  • 2000 年,France等人对比了正常人、抑郁患者和有自杀倾向的人,对声音的分析发现共振峰(formant)和功率谱密度(power spectral density)特征在分类问题中是有效特征
  • 2001 年 Alpert等人的跟踪实验发现抑郁患者比正常人在语音上缺少韵律变化。
  • 2003 年 Moore等人的结果显示韵律特征在增加 了其统计量后能够提升系统性能。
  • 2004 年 Cannizzaro等人分析了语音特征和汉密尔顿抑郁量表分数的相关性,发现语速、停顿比例(percent pause)、基音周期的变化(pitch variation)和量表分数有较强相关性。
  • 2007 年 Mundt等人的研究显示,经过治疗且病情改善的抑郁患者讲话时基音周期的变异更大,停顿更少,速度也更快。
  • 发展阶段

  • 2007 年 Torres等人使用了基于遗传算法的特征选择方法,得到了远低于原始特征维数的特征子集,并将该特征子集应用在抑郁患者和正常人的两分类问题中,获得了较高的正确率,这可能是最早利用特征选择来解决有效特征筛选问题的尝试。
  • 2008 年 Moore等人对比了韵律特征(prosodic feature)、 声道特征(vocal tract feature)、声门特征(glottal feature)的不同组合,发现声门和韵律特征的组合效果最好,并指出在语音情感分析中声门信息也是至关重要的一部分。
  • 2009 年 Cohn等人指出某些抑郁症状在访谈过程中可以通过非言语内容的方式表达出来,且能被自动检测到。
  • 2009 年开始,Low详细报道了他们对青少年真实生活场景录音的分析:梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)及其差分、Teager 能量算子(Teager Energy Operation, TEO)等均为有效特征;性别相关模型(Gender Dependent Model, GDM)比性别无关模型的分类率高8%
  • 2011 年 Cummins等人发现谱特征适用于朗读语音的抑郁识别问题,基于 MFCC 和共振峰的组合特征能够获得 80%的分类率。
  • 2012年 Alghowinem等人指出对于女性有效特征是能量对数(log energy)和振幅微扰(shimmer),对于男性响度(loudness)特征的分类率较高。就性别而言,女性的分类正确率高于男性。
  • 繁荣阶段

  • 2012 年 Shankayi等 人 的 研 究 显 示 prosodic+vocal tract spectrum+glottal 的组合特征效果好于其中任意一种单独的特征类型,并且科学文本的分类率高于赞美诗的。
  • 2013 年 Alghowinem等人指出自然语音(spontaneous speech)的分类率比文本朗读(read speech)的高,频率微扰(jitter)、shimmer、energy 和 loudness 是比较稳定的有效特征,同时还探讨了语音信号“切片”(thin-slicing)的有效性。
  • 同年,Alghowinem又报道了 loudness、intensity 也是有效特征,使用高斯混合模型(Gaussian Mixture Model, GMM)和支持向量机(Support Vector Machine, SVM)的组合获得了较好的分类效果。
  • 2013 年 Ooi等人跟踪研究了 191 个 12~13 岁的学龄少年,间隔两年的筛查发现,他们中出现了 15 个重度抑郁患者。这是一个非常好的跟踪实验,它可用于做利用语音预测抑郁的研究。作者发现的有效特征是 prosodic、glottal、TEO、spectral,不过要把这些特征用到其他年龄段人群时仍须谨慎,因为该实验的研究对象是 12~13 岁的少年,他们可能处在变声期。
  • 2013 年 Yang等人报告了一个有趣的实验,他们对抑郁患者的录音进行 850Hz 的低通滤波,使语义无法辨识,然后让志愿者听辨并评估说话人的抑郁水平,结果发现准确率较高。作者认为这个实验有力地证实了语音(不包括语义)携带抑郁水平的信息,并且可以被人感知到。
  • 2014年 Asgari等人让志愿者对抑郁患者语言中词语的唤醒度(aroual)和愉悦度(valence)评分,然后把这些分数作为特征加入用 OpenSMILE提取的语音特征集中,分类率最多可以提高 6%。
  • 2014 年 Cummins等人用 t 分布随机近邻嵌入(t-Distributed Stochastic Neighbour Embedding,t-SNE)的可视化结果说明说话人个体差异是非常重要的影响因素。作者利用 i-vector 方法将高维数据映射到低维空间,以减少个体差异和语音内容变化带来的影响,实验结果显示该方法的使用提升了效果。
  • 2014年Hönig等人收集了219个被试的德语语音,并且使用了识别瞌睡的语音特征来识别抑郁。2014年Kaya等人使用了基于典型相关分析(CanonicalCorrelationAnalysis,CCA)的特征选择方法来寻找最优特征组合。
  • 2015年Cummins等人指出抑郁患者声音局部变异性降低和声轨迹(acoustictrajectory)会产生某种平滑。
  • 2015年Mitra等人的研究显示自然语言要比朗读的效果好,这说明言语方式(speakingstyle)的重要性。
  • 2016年Kiss等人做了匈牙利语和意大利语的两个语种的抑郁识别语音实验。
  • 2016年Alghowinem等人使用了美国、德国、澳大利亚3个国家做的英语和德语两个语种的实验,研究了跨文化和跨语种的抑郁识别问题,结果发现语言种类、实验环境和文化并不明显影响识别系统的性能,或者说系统是数据无关的(data-independent);但和训练数据与测试数据的匹配相关。
  • 2016年Stasak等人发现语音中的情感信息(愉悦度、唤醒度、支配度)可以帮助仅以语音分析的系统的识别准确率在原有基础上提高5个百分点。
  • 2016年Morales等人证实代词的使用和负性词汇均与抑郁相关。
  • 研究方法

  • 跟踪研究:跟进抑郁症患者的治疗过程,有间隔的多次采集,分析语音特征随患者的治疗过程的变化。
  • 横断面研究:在一个时间点上,采集受试者的语音信号,利用某些语音特征来区分抑郁患者和正常人、或者说判别某一个受试者是否为抑郁症的研究,可以被视为是一种分类问题或者抑郁识别的研究。
  • 实验设计

    目的:1.观察某些因素的影响2.通过控制变量,获得高质量的语音数据。

    言语方式:访谈、朗读、背诵、演讲等等。

    有效特征的筛选

    关键问题:哪些语音特征才能有效的识别抑郁症,或者评估抑郁水平。

    特点:

  • 难以综合不同实验的结果获得一致性的结论,不同的研究中的有效特性不同,实验设计也不同,无法通过不同实验的相互对比来确定哪个特性更有效。
  • 许多研究获得的结果仅指明了有效特征大类,却没有重视其主要作用的具体特征分量。
  • 跟踪研究和横断面研究中对特征的分析手段不同。
  • 模型构建

    模型的构建和验证都依赖于有效特征的确定,所以研究人员把更多精力投入到特征的讨论中去了。实际上实验设计及影响因素分析、有效特征确定,模型构建三个问题相互影响,可以认为对模型的构建及优化问题在限定特征情况下进行探讨,并且构建合理高效的识别模型有利于识别

    语音处理基础

    语音的概念

    语音是声音和语言的结合体,声音是载体,语言是内容。研究通常分为两个方面:一个是通过语音中音的排列规则及其含义的研究,属于语言学。另个是对语音中音的物理特性的研究,属于语音学。抑郁症识别的研究过程中,绝大多数是针对声音而非语言展开的,更关心声音的物理特性。而且语言中包含了各种的信息,不能更加普适的适应各种语言。

    发音原理

    语音由发声器官产生,很多种因素会影响语音如:性别,年龄,情绪,病变和外伤,身体状态,言语方式,专业背景。在研究抑郁识别的语音实验中,抑郁水平是自变量,语音是因变量,上文提及的影响因素都是控制变量。对于控制变量,通常在实验设计中要制定合理的方案来解决。

    抑郁人群的语言行为特点

    抑郁症症状有:情绪症状、认知表现、动力性表现、植物性和躯体性的症状、妄想、幻觉等 6 个方面

    讲话时自主性降低,言辞减少;语速变得缓慢,停顿时间变长; 声音通常比较小,感觉有气无力;情绪低落,沮丧,谈话内容和语调往往都比较单调,发音含混不清,甚至影响交流;有的人说话时犹豫、结巴、伴有叹气,甚至哭泣。这些特点并非所有的患者都有,也并非出在同一个个体上

    语音特征

  • 韵律特征:包含语音中音高,语调,能量,节奏变化等重要信息,表示为人听到的“抑扬顿挫”,可以表达人的情感信息,恰恰与抑郁症患者的某些临床表现对应。
  • 基音频率:发浊音时声带振动的频率,简称基频。变化范围很大,受性别,年龄,情绪等多种因素的影响。一半来说男性为135-185Hz,女性在260-350Hz。不同团队的研究表示基频对抑郁识别问题的影响不同,有的认为没有太大帮助,有的认为基频变异的增大反应了抑郁的改善。
  • 语速:多数研究都表明,抑郁患者的语速更慢,停顿更多
  • 能量:与音量相关的相关,人在悲伤时能量通常比较低,Alghowinem等人的研究指出能量是抑郁识别的有效特征。
  • 谱特征:含义相对宽泛,包含了频谱,功率谱,倒频谱,频谱包络等特征。语音是短时平稳信号,通常用短时傅里叶变换对语音做分析。有研究表明对青少年得抑郁识别很有帮助。
  • 梅尔倒谱系数MFCC:是Mel标度频率域提取出来得倒谱系数,常用在语音识别和说话人识别得领域。有研究证明是有效语音特征
  • 共振峰:反应人的声道物理特性,声道可以看成非均匀截面的声管,当准周期脉冲激励进入声道时会引起共振,产生一组共振频率。共振峰特征包含共振峰频率和频带宽度等,共振峰信息包含在语音频谱包络之中,在语音信号合成,语音识别中有广泛应用。研究中常用的是前三个共振峰。
  • 线性预测系数LPC:是指对语音信号值进行线性预测的一组系数,LPC是用若干个过去值的加权线性组合来逼近当前值,权值为线性预测系数。LPC能精确便捷的表征语音短时能量的谱包络,有效的估计基频,共振峰等语音参数。
  • Teager能量算子TEO:是H.M.Teager提出的用以跟踪信号瞬时能量的非线性算子。一个信号的能量不仅与幅度有关,而且与震动频率有关。TEO计算简单且时间分辨率高,对于解调信号效果很好。Ooi等人对青少年的跟踪研究发现TEO能够有效识别抑郁;Low等人用方差分析发现TEO自相关特性在抑郁症组和正常对照组上有显著差异。
  • 声门波:反映了声门特性,是一种源特征,可以获得比较准确的声道响应。蕴含情感信息,对情感识别有一定的作用。
  • 语音信号的特点

    语音信号其特点是随时问变化,是典型的非平稳信号。因为发声器官的运动而引起语音的形成,然而声音传播的速度与发声器官振动相比要快,所以,短时内平稳是语音信号的特点。一项研究表示,在5毫秒40毫秒,语音信号基本的物理特性参数与频谱特性保持不变。如此,本实验可以顺利引入此种方法以及理论到语音信号短时间处理中。因此, “短期分析技术”在语音分析过程中体现。

    对语音信号进行基频化处理

    双相情感障碍的特点是情绪波动。 在本实验中提出了一种自动化的方法来描述一部分(F0)动态基频音节。这种方法通过执行一个细分运行语音样本估算出两个类别的特性。 第一类特性是借用了Taylor的倾斜语调模型。但是,Taylor方法有别于这种预估所有声段而不进行任何语调分析的方法。 第二类的特性考虑F0变化的速度。在本文中,该方法是首先从语音数据库来预估。然后,分析从11名精神病人经历不同的情绪状态后获得的语音样本,并与18个健康对照组进行对比。

    语音信号的“短时谱”

    对于非平稳信号,频谱随时问连续变化,它是非周期的,因此由傅里叶变换得到的频谱并不能准确获知频谱各个时段的特性。如果利用加窗的方法从语音流中取出其中一个短段,再将此短段进行傅里叶变换,便可以获得该语音的短时谱

    基音周期

    基音周期是指浊音信号的周期,它的值是声带振动频率的倒数,估计基音周期的过程称为基音检测。

    语音信号的预处理

    预处理加重

    相对高频的信号由于口鼻辐射的影响会产生跌落,所以要将高频部分进行提升,使信号变得平坦,从而能够在整个频带中能够用相同的信噪比求频谱预加重数字滤波器。要恢复信号时,要去除对测量值的加重处理,用6dB/倍频程的下降的频率特性来中和成原来的特性。

    加窗分帧

    检测语音信号时首先要进行分帧,然后逐个判断每一帧是不是语音信号的端点。所以需要通过语音信号先加窗后分针,将长的语音划分为多个短时的语音段,每个短时的语音段叫做一个分析帧。

    端点检测

    语音信号的端点检测从本质上讲是利用语音信号自身的特征与噪声区分开。进行端点检测常用的方法有短时平均能量、短时平均过零率和谱熵法等,这几种方法都是最基本的检测方法,有时候也会将多种方法结合使用。

    短时能量可以用来检测浊音,过零率可以用来检测清音。

    首先分别为二者确定两个门限:低门限和高门限。低门限数值较小,比较容易超过,并且能明显的感知信号的变化。语音信号的开始不是由低门限决定的,而是当信号超过高门限并且在以后自定义的时间段内语音信号超过低门限时才表明信号的开始 。

    端点检测分为四个部分:

  • 静音段:当能量或过零率超过低门限标记时开始起点,进入过渡段。
  • 过渡段:当两个参数中任意一个超过高门限则说明进入语音段。若两个参数都降回到低门限之下则进入静音段。
  • 语音段:如果两个参数全部降低到低门限之下,且计时总长度没有超过最短时间门限,则认为是一段噪音,继续扫描之后的语音数据,否则进入结束段并标记结束点。
  • 结束段:标记结束点
  • 语音信号的合成编码分析

    短时时域分析

    进行语音信号分析时,最先接触到最直观的就是它的时域波形。时域分析通常用于最基本的参数分析,语音的分割、预处理和大分类。这种分析方法的特点是表示语音信号比较直观,物理意义明确。

    频域分析

    常用的频谱有频谱,功率谱,倒谱。最常用的频域分析方法有傅里叶变换法,线性预测法。

    语音信号特征提取

    OpenSMILE软件是用于信号处理和机器学习的特征提取器,具有高度模块化和灵活性特点。最基础的功能可以用于语音信号特征的提取。可以实时的在线处理数据。

    过零率可以反应信号的频谱特性,高频率对应着较高的过零率,低频率对应低过零率,那么过零率和语音的清浊音之间就存在了对应关系。

    Mel倒谱系数

    基于人耳的听觉特性提出,与赫兹频率成非线性对应关系,Mel频率倒谱系数正是利用了这种非线性对应关系计算得到赫兹频谱特征。

    MFCC参数提取步骤

  • 预加重:采样后的信号通过一个高通滤波器,声带和嘴唇的效应会使得高频共振峰的振幅低于低频共振峰的峰值,进行预加重就是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分。
  • 分帧:取10-20ms为一帧,为了避免窗边界对信号的遗漏,对帧做偏移的时候要有帧移(帧与帧之间重叠一部分)一般取帧长的一半作为帧移。
  • 计算短时能量:短时能量代表了音量的高低,可以过滤掉语音信号中的一些细微噪声。当能量值低于门槛时将此帧作为静音段。
  • 加窗:将每一帧带入窗函数,窗外的值设置为0,目的是消除各个帧两端可能会造成的信号不连续性。
  • 快速傅里叶变换:计算每一帧的频谱函数
  • 参考文献

    基于语音信号的抑郁症识别方法研究_刘骏飞硕士论文

    博士-2017-兰州大学-胡斌-基于语音的抑郁识别方法及关键技术研究_刘振宇

    发表评论

    邮箱地址不会被公开。

    Go