HashMap底层原理

发布时间：2024年01月08日

HashMap

底层数据结构，1.7和1.8有何不同？

1.7 数组 + 链表

1.8 数组 +（链表|红黑树）

为何要用红黑树，为何一上来不树化，树化阈值为何是8，何时会树化，何时会退化为链表？

1）红黑树用来避免DoS攻击，防止链表超长时性能下降，树化应当是偶然情况。

? ① hash表的查找，更新的时间复杂度是O(1)，而红黑树的查找，更新的时间复杂度是O(log2n)，TreeNode占用空间也比普通Node的大，如非必要，尽量还是使用链表。

? ② hash值如果足够随机，则在hash表内按泊松分布，在负载因子0.75的情况下，长度超过8的链表出现的概率是0.00000006，选择8就是为了让树化的几率足够小。

2）树化两个条件：链表长度超过树化阈值8；数组容量>=64。

3）退化情况1：再扩容时如果拆分树时，树元素个数<=6则会退化成链表。

4）退化情况2：remove树节点时，若root、root.left、root.right、root.left.left有一个为null，也会退化为链表。

索引如何计算？hashCode都有了为何还要提供hash()方法？数组容量为何是2的n次幂？

① 计算对象的hashCode()，再进行调用HashMap的hash()方法进行二次哈希，最后 &（capacity-1）得到索引。

② 二次hash()是为了综合高位数据，让哈希分布更均匀。

③ 计算索引时，如果是2的n次幂可以使用位与运算代替取模，效率更高；扩容时 hash & oldCap == 0 的元素留在原来的位置，否则新位置 = 旧位置 + oldCap。

④ 但①②③都是为了配合容量为2的n次幂时的手段，例如Hashtable的容量就不是2的n次幂，并不能说哪种设计更优，应该是设计者综合了各种因素，最终选择了使用2的n次幂作为容量。

介绍一下 put 方法流程，1.7与1.8有何不同？

1）HashMap 是懒惰创建数组的，首次使用才创建数组；

2）计算索引（桶下标）；

3）如果桶下标还没人占用，创建Node占位返回；

4）如果桶下标已经有人占用

? ① 已经是TreeNode走红黑树的添加或更新逻辑

? ② 是普通Node，走链表的添加或更新逻辑，如果链表长度超过树化阈值，走树化逻辑

5）返回前检查容量是否超过阈值，一旦超过进行扩容；

6）不同

? ① 链表插入节点时，1.7是头插法，1.8是尾插法

? ② 1.7是大于等于阈值且没有空位时才扩容，而1.8是大于阈值就扩容

? ③ 1.8在扩容计算Node索引时，会优化（扩容时 hash & oldCap == 0 的元素留在原来的位置，否则新位置 = 旧位置 + oldCap）

加载因子为何默认是0.75f？

1）在空间占用与查询时间之间取得较好的权衡。

2）大于这个值，空间节省了，但链表就会比较长，影响性能。

3）小于这个值，冲突减少了，但扩容就会更频繁，空间占用多。

多线程下会有啥问题?

1）扩容死链（1.7）

2）数据错乱（1.7, 1.8）

文章来源:https://blog.csdn.net/weixin_52164430/article/details/135446899
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！