论文阅读笔记-FCBF改进算法及有效特征值筛选

betball贝博app 语音识别抑郁症 383 次浏览 没有评论

语音识别抑郁症的关键问题是“哪些语音特征是识别抑郁症的有效特征”

本章讲利用特征选择方法确定有效特征:通过语音实验获得一个较大样本量的语音数据集,然后分析已有文献,列出一个维度较高、带有经验性质的语音特征集。最后在这个特征集上利用特征选择算法选出适用于抑郁识别的特征子集,并检验有效性。

  • 不足之处
  • 解决方案
  • 进一步改进
  • 特征选择定义:

    特征选择是指在一个特征集内按一定目标选择特征。“特征”指的是描述某一事物区别于其他事物的特性。“选择”就是挑选,且隐含了挑选的目的或标准在内。特征选择的出发点是寻找事物的本质。选出的不一定必须是“内在的本质”,只要能服务于目的就行,因此在某些研究领域,特征选择又被称为属性(attribute)选择或变量(variable)选择。

    特征选择首先可以降低数据维数,二是可以寻找反应事物本质的特征。

    降维的共同点是都可以降低数据维度,减轻维数灾难;不同之处在于特征选择仅在原始特征集合中选择一个子集,并不改变原始特征;而降维通常是指某种线性或非线性的变换,对原始特征向低维空间投影。特征选择是“取其精华”,降维是“换个角度”。

    特征选择的定义:

  • 1.寻找一个对目标概念必要和充分的元素个数最小的特征子集。强调了特征子集中元素个数最少,但“对目标概念必要和充分”,是一个理想化的描述。
  • 2.从N个原始特征中选择一个由m个特征组成的特征子集m≤N,使其在原始集合的所有元素个数为m的特征子集中,该子集对某种评价函数是最优的。更加具有操作性,明确了“某种评价函数最优”
  • 3.特征选择的目标是从原始特征中选择一个特征子集来提高预测准确率,或者在不显著降低分类正确率的条件下降低特征集维度。是一种折中的考虑,可以视为区分了应用场景。
  • 4.特征选择的目的是选择一个小的特征子集,且它的类分布和所有特征的类分布尽可能的接近。从数据的类分布出发。
  • 一般情况下,更多的是考虑问题本身的特殊性,而非定义的差别。

    特征选择要素

  • 初始子集设定是特征选择过程的起点,常见的有三种方式:空集、全集、从全集中随机产生一个子集。
  • 搜索策略是在整个特征空间中寻找目标特征子集的方法
  • 评估函数用来衡量一个特征子集效度,比如区分不同类别数据的能力。
  • 停止准则保证了算法的有穷性,满足停止准则时的特征子集将被作为结果输出。
  • 四个要素中,搜索策略和评价准则是最重要的,它们直接影响特征选择算法的效果。

    搜索策略

    特征子集的评价准则确定以后,在整个特征空间内寻找最优特征子集是一个搜索的过程。特征个数为N时,每个特征有被选和不被选择两种可能,所以共有2^N个不同的特征子集。理论上,要获得最优特征子集需要穷举所有的特征组合,当特征维数大幅增加时变得不太现实,要有更好的搜索策略。基本的搜索策略分三种:

  • 全局最优搜索:分支定界法,但特征维度较大时,时间复杂度非常高。适用于特征维数较少
  • 随机式搜索:遗传算法,模拟退火算法,可以缩小搜索空间,但有较高的不确定性,参数的选择对结果的要求较大。需要准最优特征子集,不介意运行时间。
  • 启发式搜索:较常使用如序列前向选择法,序列后向选择方法,序列浮动前向搜索,实现简单,容易陷入局部最优解。 适用于运行时间快但不必须全局最优。
  • 评价准则

    评价准则用来衡量一个特征集区分不同类别数据的能力,Dash和Liu将其分为5种类型:距离衡量,信息衡量,依赖性衡量,一致性衡量和分类错误率衡量。几种衡量标准各有特点,根据具体问题结合搜索方向和搜索策略综合考虑方案。

    特征选择的方法

    特征选择方法可根据搜索策略和分类模型的组合形式分为4种:

  • 过滤型:先对数据集进行特征选择,训练学习器。这种方法仅按数据的内在属性评价特征集,可移植性好,计算快速,适用于高维数据,但最优特征子集对应的分类率相对较低。
  • 封装型:把特征子集的选择过程和学习器的评价过程封装在一起,直接把学习器的分类率作为评价特征子集的指标,能获得较好的分类结果。特征子集是对学习器“量身定做”的,通用性不强,算法复杂度较高,容易导致过拟合。比如定向搜索,顺序前向搜索等。
  • 混合型:结合了过滤型和封装型的两级特征选择方法,常见做法是先用过滤型方法去除不相关特征,降低特征维度;然后利用封装型方法在选出的特征子集上进行二次特征选择,得到最优子集。
  • 嵌入型:把特征选择嵌入到分类器结构中,特征选择与分类器训练同时进行,不需要对中间结果进行验证,提高了算法的执行效率,适合小样本数据的特征选择,通用性不强,容易过拟合。
  • 利用特征选择方法筛选识别抑郁的有效语音特征着重考虑过滤型方法。过滤型方法选择出的特征不依赖于分类器,有较好的稳定性。

    过滤型方法

    过滤型特征选择方法依据特征评估准则可以分为3种:

  • 单变量评估:按单个特征与类标签相关性的大小排序而对特征做出选择:信息增益,基尼系数,卡方检验。简单快速,可以有效去除不相关特征。但未考虑特征间的互补与冗余关系,分类正确率较低。
  • 成对变量评估:计算特征与类标签之间的相关性的同时也计算了特征与特征之间的相关性,可以去除部分冗余特征。
  • 多变量评估方法:衡量特征子集与类标签之间的相关性,考虑特征冗余的同时,保留了相互依赖的特征。计算复杂度较高,运行时间较慢,但是可以选择有效的特征子集获得较好的分类率。
  • 以上三种方法运行速度依次变慢,分类正确率依次增高。

    FCBF算法(Fast Correlation-Based Filter)

    FCBF(Fast Correlation-Based Filter)是成对变量评估的经典方法之一,它
    首次定义了冗余特征并以一种经验型的迭代方法将其去除,因而大大减小了选出
    特征的数量,并且获得了较好的分类率。

    主要思想

    不仅考虑特征与类别之间的相关程度,同时也考虑特征和特征之间的相关程度,由这两个因素共同决定这个特征是否选入最优特征子集。采用对称不确定性(Symmetric Uncertainty)衡量特征与类或特征与特征之间的相关程度。

    具体过程

    去除不相关特征

    计算每个特征与类标签之间的相关性(SU),通过设置SU的阈值,小于阈值的直接判为不相关特征并删除,大于阈值的特征组成相关子集,对其按照SU的数值进行降序排列。

    去除冗余特征

    从相关子集的第一个特征F1开始,对后续所有的特征逐一进行比较。若后续特征与类的SU值小于该特征与F1的SU值,则认为是冗余特征并从相关子集中移除。

    以F1为基准判断一遍后,从相关子集剩余特征的第二个特征开始,重复这一过程,知道没有特征被移走或者全部判断完毕为止。

    综上,只要特征Fj和类标签的相关性小于Fi和类标签的相关性且两个特征之间的相关性又高于Fj和类标签之间的相关性,则认为Fj是冗余的。

    当特征和类的相关性较高时,更应该关注不同特征间的互补性而非冗余性,尽可能的保留特征。当特征和类的相关性比较低时,更关注不同特征之间的冗余性,尽可能的删除特征。

    不足之处

    对于一些与类标签有高相关性的特征,仍然在某些情况下会被判为冗余特征。

    解决方案

    对于Fun函数的形式自行选择,此处选择的是sigmod函数。

    进一步改进

    无论是AWFCBF和FCBF,都包含迭代的判决机制,导致分类正确率不高。观察AWFCBF的变化趋势,如果参数值无限大,就对应了一个理想的阈值函数。

    发表评论

    邮箱地址不会被公开。

    Go