如何构建分类模型
充分利用语音信号数据收集成本低的特点,构建基于多语音段的集成学习模型
经常使用的模型包括:SVM,KNN,GMM,HMM等多种学习器及他们的组合。
多语音段集成学习模型显著区别于单分类器模型,这种想法抛开了分类器参数选择等细节问题,在框架上利用集成学习方法使之充分利用语音数据多样性这一特点,进而提升模型的识别效果。同时在集成学习模型框架内部,仍然可以使用实践检验表现优良的单分类器。
集成学习
构建并结合多个学习器来完成学习任务,这样许多本质相似的事物利于多分类器系统和基于委员会的学习都可以在这一大框架中讨论。不同名称的侧重点有所不同,但行为实质相同,就是通过单分类器的判决结果以某种方式的综合来输出最终结果。以期获得好于单分类器的效果。集成学习包括样本生成方法,个体学习器,结合策略三个基本要素。

结合策略包含平均法,投票法,学习法。
平均法:对数值型的数值结果求平均值,包括简单平均和加权平均。加权平均想通过从训练数据中学习而确定的基学习器的权重,但研究表明加权平均法未必一定优于简单平均法。个体学习器性能差异较大时适宜使用加权平均法,反之适合简单平均法
集成学习的优点:时间复杂度略高于单个学习器,相较于单个学习器,仅仅是增加了结合各学习期的过程,这一过程需要的时间比生成各个体学习器小得多。
多样性增强
多样性度量是用于度量集成中个体学习器的多样性或者多样化的程度,典型做法是考虑个体分类器的两两相似度。个体学习器的多样性直接影响集成的效果,前辈们发明了很多的方法来增强多样性,思路主要是在学习过程中引入随机性,常见做法是对数据样本,输入属性,输出表示,算法参数进行扰动。
多语音段数据可以视为天然的数据扰动,可以利用这一点来增加多样性,从而提高系统的识别率。尽管语音数据通常以提取上千维的特征,但是特征之间是否冗余难以确定,所以利用特征扰动来增加多样性不是很好的选择。
多语音段的集成学习实验
实验1:对比单语音段和多语音段的分类效果
确定一种分类器,对比两组被试做二分类实验,穷举27各语音段的所有组合,计算在不同组合数目时的分类率平均值,与单语音段分类率的均值和最大值比较。不失一般性,只选择奇数个语音段进行组合,采用相对多数投票法进行判决并输出最终结果。
实验2:“集成方式1”和“集成方式2”的对比实验,使用经典分类算法SVM,KNN,NB,C4.5进行分类实验。在“集成方式1”中,利用上述4种方法在单个语音段上产生4个分类器,采用多数投票决策输出最终结果,并计算27个语音段分类率均值。在“集成方式2”中,从每个被试的27段语音中随机抽取4段,使用一种分类方法训练4个分类器(保持分类器数目一致),同样采用投票决策,对不同分类器的结果求平均值。
实验3:对实验2中不同集成方式的所有个体分类器计算它们两两之间不合度量,然后以其平均值作为该集成的多样性度量。
言语方式的多样性
访谈和图片描述都属于自然语音,词汇朗读属于机械式语音。访谈更接近于真实场景,所以访谈和朗读的多样性最大,访谈和图片的多样性最小。
基于样本概率的剪枝方法
对于实际的集成而言,通常不需要所有的个体学习器,为了获得最优的集成效果,要在已训练好的个体学习器中有所取舍。优点:many could be better than all.
集成剪枝的方法:
实践中,一般要求集成剪枝算法在专门的剪枝集上进行,它与训练集和测试集都不重叠。如果样本数目太少,这种划分会使训练集、测试集、剪枝集都比较小,导致集成的稳定性变差,替代方案是训练集本身或其子集来进行剪枝。
基于样本概率的剪枝方法
对于给定的个体分类器集合,不同样本被判对的概率是不同的,因此应该根据具体的概率给予不同程度的关注,从而优化剪枝过程。
如果一个样本在全部个体学习器中被判对的概率很大或很小(接近0或者1),那么对它的关注度应该很小。如果一个样本在全部个体学习器中被判对的概率接近0.5,应该着重关注,因为要判对这个样本取决于个体学习器的组合,这种关注度可以体现为权重,随着剪枝的进行,后续的概率会发生变化,权重也是应该变化的。
方法描述:对数据样本Xi在给定的个体分类器中统计识别率Pi,以0.5-|Pi-0.5|的数值为权重,选择个体分类器使当前的分类效果最好,如此迭代直到结束。计算样本识别率的过程中:假设某一时刻,已经选择好若干分类器,这些分类器中有m个将样本Xi判对,n个将其判错,令a=m-n。待选的个体分类器总数为k,其中t个将Xi判对。若还要选s个分类器组成最终的集成,样本Xi最后会被判断正确的概率P可计算得到。P84页具体计算过程 P86页实验讨论
基于多语音段的抑郁识别模型
剪枝实验
集成剪枝实际上是对个体分类器的筛选过程,本节通过三个实验分别讨论剪枝方法在语音数据上的效果及不同言语方式的重要性