?一、特征的概念
?二、特征的类型及特征提取
?三、特征选择
?四、特征组合
?五、特征提取与选择的知识点
?1、特征的理解
??在两个或多个目标物之间具有差异的属性就是物体的特征(特征属性或特征变量),也就是可以被用来区分目标物的属性
??特征具有相对性,它永远是相对于两个或多个相互比较的目标物而言
?2、特征提取和选择的目的:区分不同的目标物
??就遥感数据处理而言,就是服务于遥感图像分类
?特征的类型:
??(1)原始特征:能直接反映物体之间差异的原始属性。
??(2)衍生特征:把某些或者所有原始属性通过变换生成新的特征变量,从而增强目标物之间的可分性,这种通过变换方式得到新特征变量的过程就是特征提取。
?遥感影像的特征类型:
??(1)原始特征:光谱信息
??(2)衍生特征:全局性的光谱特征统计变量和局部性的空间特征(特征提取包括光谱特征提取和空间特征提取)
?问题:用于遥感图像分类的属性特征可能非常多,如果不加选择地将所有属性都作为分类特征,那么分析特征、训练模型所需的时间就会很长,模型也会变得复杂,其推广能力(泛化能力)就会下降;此外,特征变量过多会引起“维数灾难”,使得识别精度不增反降。
?特征选择的标准:可区分性、可靠性、独立性、数量少。
?特征组合既包括分类特征参与分类的先后顺序,也包括分类特征各自的权重赋值,因为对于同一个分类问题,并不是每个分类特征在区分地物时都具有相同的贡献率,对于最有利于区分地物的特征应该赋以较大的权重。
?一、特征提取
?二、特征选择
?三、特征组合
?难点:空间统计特征提取算法及其原理
?重点:常见特征提取与选择的算法原理
?一、光谱特征提取
?二、空间特征提取
??纹理特征(灰度共生矩阵)、形状特征、空间关系特征
?光谱特征提取的基本思想就是对多种属性进行某种线性或非线性组合得到综合指标。
?目的:在多光谱(尤其是高光谱)图像中,邻近波段之间往往具有高度的相关性,存在着大量冗余和重复的信息,需从这些数据中提取那些无冗余的有效信息来识别目标地物。
?方法:主成分变换、最小噪声分离、缨帽变换、植被指数等。
?1、主成分提取
??通过对图像上的每个像元的光谱特征向量进行线性变换,从而产生一幅新的图像,新图像的各分量(小于或者等于输入图像的波段数)之间差异最大、但相关性最小(即相互正交),各分量按方差大小排序。
??目标:多光谱遥感影像在经过主成分变换后,前面几个主成分包含了原始图像90%以上的信息量,因此一般会选择前几个分量作为备选的分类特征变量。
?2、最小噪声分离变换
??最小噪声分离变换通过对信号与噪声的分离,所获得的分量是按信噪比由高到低排序的。
??目标:与主成分变换类似,最小噪声分离变换之后也是通常选择前几个信噪比高的分量作为备选的分类特征变量。
?3、缨帽变换
??缨帽变换是一种特殊的主成份分析。缨帽变换的变换系数是固定的,其旋转后坐标轴不是指向主成份方向,而是指向与地物有密切关系的方向,特别是与植物生长过程和土壤有关的信息,通常变换后的可用分量包括亮度指数、绿度分量、黄度分量和湿度分量,同一传感器不同图像产生的分量之间可进行相互比较。
??目标:利用缨帽变换进行特征提取时,我们可以根据实际需求选择不同的分量进行分类,如植被分类可以考虑选择绿度分量,土壤水分遥感反演可以考虑选择湿度分量。
?4、植被指数
??由于绿色植物对红光波段具有强吸收作用,而对近红外波段具有高反射作用,因此绿色植物对这两个波段的光谱响应具有明显的反差,植被指数正是通过对这两个波段的组合来进一步增强植被信息,并且使新的变量对植被长势、生物量等具有一定指示意义。
?空间特征属于局部统计变量,反映图像局部的灰度变化、像元组合及其与周边的关系。
?类型:纹理特征、形状特征、空间关系特征
?注意:空间特征与对象尺度的关系
??(当图像分割尺度过细时,形状和空间关系特征无法表达)
?1、纹理特征
??纹理反映了图像灰度模式的空间分布,包含了图像的表面信息及其与周围环境的关系,更好地兼顾了图像的宏观结构与微观结构。纹理就是由纹理基元按某种确定性的规律或者某种统计规律排列组成的,纹理具有局部的随机性和整体的统计规律性。
??表现:
??(1)某种局部的序列性在比该序列更大的区域内不断重复出现
??(2)序列是由基本部分(即纹理基元)非随机排列组成的
??(3)在纹理区域内各部分具有大致相同的结构
?遥感图像纹理特征常用提取方法:统计法(灰度共生矩阵)
?灰度共生矩阵
??本身不能作为纹理特征,而是通过灰度共生矩阵的能量或者相关统计特征来表征图像的纹理特性。
?2、形状特征
??形状特征是基于对象的形状进行描述和表达。
?? - 形状表达类型:
??(1)基于轮廓特征:只利用形状的外部边缘,一般认为光谱特征均质的物体其边界信息最丰富,地物形状特征是通过其边界信息表现出来;
??(2)基于区域特征:利用形状的目标区域整体信息,如组成对象的像元。
?? - 形状表达方式:链码、多边形近似法、边界线段法和骨架法等。
?3、空间关系特征
??空间关系是指图像中分割出来的多个目标之间的相互空间位置或相对方向关系。
??空间关系特征类型:
??(1)拓扑关系:两个对象间的拓扑关系是指在拓扑变换(旋转、平移、缩放等)下保持不变的空间关系,即拓扑不变量,拓扑关系包括地物之间的相邻、相离和包含等关系。
??(2)方位关系:对象间部分或整体的方向关系,主要考虑对象间的相对方向,如上、下、左、右等,该关系常与距离关系相结合来测量对象的关系。
??(3)距离关系:地物之间的距离大小。
?一、特征选择
??技术流程、属性评价准则(关联准则、独立准则)、基于先验知识的选择
?二、特征组合
?1、特征选择的流程
?(1)子集产生 (2)子集评价(非监督选择和监督选择) (3)评价终止 (4)结果验证
?2、属性评价准则
??根据与分类算法的关联程度,属性评价准则大体上可以分成两类:关联准则和独立准则。
? - 关联准则
??关联准则依赖于分类算法,它是以分类算法的性能作为评价准则。
??(1)监督特征选择,在特定的分类器下常采用分类准确率作为评价准则。
??(2)非监督选择,在特定的聚类算法下常采用属性子集的聚类质量来作为评价准则,常用的聚类质量评价参数有类别的紧凑性、类内类间的距离和最大可能性等。
? - 独立准则
??独立准则是通过训练样本的内在特征来对所选择的属性子集进行评价,不依赖于特定的分类算法。
??类型:
??(1)距离度量(监督选择)
???常采用类别可分性距离、散度等指标进行评价,其基本思想就是选择对训练样本可区分性大的属性,比如对于二分类问题和两个特征X与Y,如果特征X更容易区分两个类别,则优先选择X属性作为区分特征。
???常用指标:如转换离散度和Jeffries-Matusita距离等。
??(2)相关性度量
???1)监督选择:主要是评价属性和类别的相关性
???标准:如果属性X和类别A的相关性大于属性Y和类别A的相关性,则选择属性X作为区分特征。
???2)非监督选择:主要考虑属性间的相关性
???标准:属性间相关性越高,说明两个属性间的信息重叠度越高,因此在特征选择时可将相关性大的两个属性融合或者只取其中一个。
??(3)信息度量(非监督选择)
???标准:主要是根据属性的信息增益进行判断,如果属性X的信息增益大于属性Y,则选择属性X作为分类特征。常采用与熵相关的各种指标来度量信息量。
??(4)一致性度量(非监督选择)
???主要思想:试图找出与全属性集具有相同分类能力的最小特征子集,即前面提到光谱特征提取,使属性集变换后的前几个分量包含整个属性集的大部分信息,所以光谱特征提取也是特征选择过程。
???理解:光谱特征提取结果的前几个分量已符合特征选择的要求,如具有信息量大、属性间无相关等特点,但有时候它们的类别可分性不一定强,有时候还会把提取结果作为原始属性参与其他度量指标的特征选择。
??(5)其他度量指标(兼顾了相关性度量和信息量度量)
?3、基于先验知识的特征选择
??前人的工作基础和研究经验可以给我们提供特征选择的思路
??基本思想:如果我们对研究区地物及其属性比较熟悉,已经知道某些属性可以很好地区分待分类的地物,此时我们可以根据这些先验知识直接选择这些可以区分特定地物的属性,该方法非常适合光谱信息相对较少的多光谱数据。
??局限性:先验知识往往受限于所识别的地物类别及其所处的环境
?特征组合涉及两方面的内容:
??1、各特征参与分类的先后顺序
??2、各特征参与分类时的权重
?作用:对于某些分类器来说,给各特征变量赋予不同的权重后再进行分类,则会得到不同的分类结果。
?决策树分类对于特征组合的体现比较典型,决策树的构建过程就体现了各特征变量出现的先后顺序;而且,某一特征可能被多次使用,也就是说该特征在分类过程中的贡献不只一次,即它的权重相较于其他特征来说要更大一些。