声纹:所有可以将一个人的声音,与其他人的声音区分开来的特征都被称为“声纹”
1.基于时频谱的人工鉴别方法
文本相关
文本无关:语音对应的文字内容没有任何限制的情况下,识别出说话人
在时频谱中找到每个字对应的频率,看看其大致分布在什么范围
2.从人工到算法
一段时频谱可以视为一个F*T的二维矩阵,两段时频谱最简答的鉴别法就是计算两者的差别,或者相关度
无论是计算范数还是相关度都需要将二维矩阵展开为一维向量
如果计算矩阵的差,需要大小一致,时间维度上也希望能对齐,两者的语速也是需要相同
现在第一段时频谱中截取出S1,再在第二段时频谱的不同位置截取出K个与S1大小一致的时频谱,通过去每一个的差值,取最小值作为两端时频谱的差别,在此设定阈值,表明是否相同————模板匹配法
音频信号处理方法的发展很大程度上推动声纹技术的发展
动态时间归正,矢量量化
对时频谱二维矩阵的时间维度进行均值统计,得到一个一维的均值向量。这个一维向量的每一个数值,都代表整段语音在对应频带的平均强度,计算两段语音的差值范数或者相关度
将本身很复杂的概率分布,表示为多个简单的概率分布的和。高斯混合模型中的每一个分量,都是一个简单的高斯分布,而该高斯分布则可以简单的通过一个均值向量和协方差矩阵来表示。当多个不同的高斯分布叠加在一起,则能够以近似十分复杂的分布,而这样的分量越多,最后得到的近似就越准确
一方面充分考虑了新到的变化因素,另一方面在于其将每个说话人的模型从高斯混合模型的多个分量中映射到更加低维的表征空间。
神经网络模型——端到端模型——广义端到端模型