?MySQL有B+Tree 索引及Hash索引等索引类型,B+Tree索引类型是MySQL采用最多的索引类型。Hash索引使用场景比较有限,文章将从Hash索引的底层结构出发,来分析Hash索引的利与弊。
hash数据结构由键、哈希函数及哈希表组成。
键:可以是任何字符串或整数,作为哈希函数的输入。
哈希函数:接收输入键并返回值,该值为哈希表的数组元素的索引。
哈希表:以关联方式将数据存储在数组中,其中每个数据值都有自己的唯一索引。
我们可以用数组来存储数据,但是在进行数据检索时,需要一个个检索,时间复杂度为O(n),我们通过哈希数据结构,可以将复杂度缩短为O(1)。
唯一性 | 能生成唯一的哈希值。 |
固定性 | 生成的哈希值长度是固定的。 |
不可逆性 | 一种单向函数,无法从哈希值推导出原始输入。 |
确定性 | 给定相同的输入,哈希函数总能生成相同的哈希值。 |
散列性 | 输出值看起来是随机的,并且即使输入值只有一点微小的变化,映射出来的哈希值也截然不同。 |
表 哈希函数的特点
哈希函数主要有以下作用:
哈希函数性能从以下方面来评价:
哈希值 = 键值 MOD X; 即取键值除以X的余数。X最好是素数,这样可以确保哈希值分布更均匀。
比如有键值:2,5,7,9,11。X取值为7.则对应的哈希值分别为:2,5,0,2,4。
这种函数计算键值速度快,但是X取值需要特别的考虑。
不同的键值可能产生相同的哈希值(比如上面的键值2和9),这种情况称为碰撞。在哈希表中,面对这种情况该如何存储值。有两种方案:1)链接法;2)开放寻址。
发生碰撞时,在对应的哈希表数组位置建立个链式结构,将值分别插入到链式结构中。
图 链接法示意图
所有原始都存储在哈希表本身中,每个哈希表数组元素包含一条记录或NULL。查找元素时,会逐个检查表槽,直到找到所需的元素或者明确该元素不在表中。
线性探测 |
|
二次探测 | 计算原始哈希值,并添加任意二次多项式的连续值,直到找到空槽。 |
双重哈希 | 利用两个函数f1及f2,先用f1计算哈希值,如果位置不为空,则借助f2来计算新的哈希值。 (f1(k) + i * f2(k))%n,其中n表示哈希表大小,k是键值,i是碰撞次数。 |
表 开放寻址的三种算法
MySQL的hash索引采用的是链式哈希表结构。是基于内存的支持,增删改查的时间复杂度都是O(1)。它只适合等值查找,其他查找时,发挥不了作用。
因为hash结构及其基于内存的缘故,hash索引有以下的缺陷:
看似哈希索引百无一用,但是在MySQL中,有一种哈希索引发挥着关键的作用:自适应哈希索引。
索引根据存储形式分为聚集索引及二级索引。当我们使用二级索引进行查询时,MySQL会根据二级索引查询到的主键值,进行回表查询(即再根据主键值来获取该条数据)。频繁的回表查询将会降低查询效率。
自适应哈希索引,是为了避免频繁回表而创建的。MySQL会判断哪些二级索引值是热查询,为它们建立自适应索引,查询时,根据这个索引直接获取数据,而无需通过主键再获取数据。