kafka入门(六)：日志分段（LogSegment）

发布时间：2024年01月10日

日志分段（LogSegment）

Kafka的一个主题可以分为多个分区。
一个分区可以有一至多个副本，每个副本对应一个日志文件。
每个日志文件对应一个至多个日志分段（LogSegment）。
每个日志分段还可以细分为索引文件、日志存储文件和快照文件。

每个 LogSegment 对应于磁盘上的一个日志文件和两个索引文件，以及其他可能的文件(比如以 .txnindex 为后缀的事务索引文件)。索引文件包括：偏移量索引文件(以 .index 为文件后缀) 和 时间戳索引文件 (以 .timeindex 为文件后缀)，

每个 LogSegment 都有一个 基准偏移量 baseOffset，用来表示当前 LogSegment 中第一条消息的 offset，用来表示当前 LogSegment 中第一条消息的 offset。

在这里插入图片描述

日志分段（LogSegment）的索引文件：

偏移量索引文件，用来建立消息偏移量( offset ) 到物理地址之间的映射关系，方便快速定位消息所在的物理文件位置。

时间戳索引文件，则根据指定的时间戳 ( timestamp) 来查找对应的偏移量信息。

Kafka中的索引文件以稀疏索引的方式构造消息的索引，它并不保证每个消息在索引文件中都有对应的索引项。

偏移量索引文件

偏移量索引项，每个索引项占用 8个字节，分为两个部分。

(1) relativeOffset：相对偏移量，表示消息相对于 baseOffset 的偏移量，占用 4个字节。当前索引文件的文件名即为 baseOffset 的值。

(2) position：物理地址，也就是消息在日志分段文件中对应的物理位置，占用 4个字节。

时间戳索引文件

时间戳索引项，每个索引项占用 12 个字段，分为两个部分。

(1) timestamp：当前日志分段的最大时间戳。

(2) relativeOffset：时间戳所对应的消息的相对偏移量。

时间戳索引文件中包含若干个时间戳索引项，每个追加的时间戳索引项中的 timestamp 必须大于之前追加的索引项的 timestamp。

资料来源

《深入理解Kafka：核心设计与实践原理》

文章来源:https://blog.csdn.net/sinat_32502451/article/details/135492244
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！