语音识别抑郁症的关键问题是“哪些语音特征是识别抑郁症的有效特征”
本章讲利用特征选择方法确定有效特征:通过语音实验获得一个较大样本量的语音数据集,然后分析已有文献,列出一个维度较高、带有经验性质的语音特征集。最后在这个特征集上利用特征选择算法选出适用于抑郁识别的特征子集,并检验有效性。
特征选择定义:
特征选择是指在一个特征集内按一定目标选择特征。“特征”指的是描述某一事物区别于其他事物的特性。“选择”就是挑选,且隐含了挑选的目的或标准在内。特征选择的出发点是寻找事物的本质。选出的不一定必须是“内在的本质”,只要能服务于目的就行,因此在某些研究领域,特征选择又被称为属性(attribute)选择或变量(variable)选择。
特征选择首先可以降低数据维数,二是可以寻找反应事物本质的特征。
降维的共同点是都可以降低数据维度,减轻维数灾难;不同之处在于特征选择仅在原始特征集合中选择一个子集,并不改变原始特征;而降维通常是指某种线性或非线性的变换,对原始特征向低维空间投影。特征选择是“取其精华”,降维是“换个角度”。
特征选择的定义:
一般情况下,更多的是考虑问题本身的特殊性,而非定义的差别。
特征选择要素

初始子集设定是特征选择过程的起点,常见的有三种方式:空集、全集、从全集中随机产生一个子集。 搜索策略是在整个特征空间中寻找目标特征子集的方法 评估函数用来衡量一个特征子集效度,比如区分不同类别数据的能力。 停止准则保证了算法的有穷性,满足停止准则时的特征子集将被作为结果输出。

四个要素中,搜索策略和评价准则是最重要的,它们直接影响特征选择算法的效果。
搜索策略
特征子集的评价准则确定以后,在整个特征空间内寻找最优特征子集是一个搜索的过程。特征个数为N时,每个特征有被选和不被选择两种可能,所以共有2^N个不同的特征子集。理论上,要获得最优特征子集需要穷举所有的特征组合,当特征维数大幅增加时变得不太现实,要有更好的搜索策略。基本的搜索策略分三种:
评价准则
评价准则用来衡量一个特征集区分不同类别数据的能力,Dash和Liu将其分为5种类型:距离衡量,信息衡量,依赖性衡量,一致性衡量和分类错误率衡量。几种衡量标准各有特点,根据具体问题结合搜索方向和搜索策略综合考虑方案。
特征选择的方法
特征选择方法可根据搜索策略和分类模型的组合形式分为4种:
利用特征选择方法筛选识别抑郁的有效语音特征着重考虑过滤型方法。过滤型方法选择出的特征不依赖于分类器,有较好的稳定性。
过滤型方法
过滤型特征选择方法依据特征评估准则可以分为3种:

以上三种方法运行速度依次变慢,分类正确率依次增高。
FCBF算法(Fast Correlation-Based Filter)
FCBF(Fast Correlation-Based Filter)是成对变量评估的经典方法之一,它
首次定义了冗余特征并以一种经验型的迭代方法将其去除,因而大大减小了选出
特征的数量,并且获得了较好的分类率。
主要思想
不仅考虑特征与类别之间的相关程度,同时也考虑特征和特征之间的相关程度,由这两个因素共同决定这个特征是否选入最优特征子集。采用对称不确定性(Symmetric Uncertainty)衡量特征与类或特征与特征之间的相关程度。

具体过程
去除不相关特征
计算每个特征与类标签之间的相关性(SU),通过设置SU的阈值,小于阈值的直接判为不相关特征并删除,大于阈值的特征组成相关子集,对其按照SU的数值进行降序排列。
去除冗余特征
从相关子集的第一个特征F1开始,对后续所有的特征逐一进行比较。若后续特征与类的SU值小于该特征与F1的SU值,则认为是冗余特征并从相关子集中移除。
以F1为基准判断一遍后,从相关子集剩余特征的第二个特征开始,重复这一过程,知道没有特征被移走或者全部判断完毕为止。
综上,只要特征Fj和类标签的相关性小于Fi和类标签的相关性且两个特征之间的相关性又高于Fj和类标签之间的相关性,则认为Fj是冗余的。
当特征和类的相关性较高时,更应该关注不同特征间的互补性而非冗余性,尽可能的保留特征。当特征和类的相关性比较低时,更关注不同特征之间的冗余性,尽可能的删除特征。
不足之处
对于一些与类标签有高相关性的特征,仍然在某些情况下会被判为冗余特征。

解决方案

对于Fun函数的形式自行选择,此处选择的是sigmod函数。
进一步改进
无论是AWFCBF和FCBF,都包含迭代的判决机制,导致分类正确率不高。观察AWFCBF的变化趋势,如果参数值无限大,就对应了一个理想的阈值函数。
