iostat获取IO延迟单位从ms调整us的方案

发布时间：2024年01月01日

iostat命令统计的磁盘I/O延迟通常是以毫秒（ms）为单位，例如在输出中的await字段表示的是平均服务时间，包括等待时间和处理时间，这个值就是以毫秒为单位。

然而，要获取更精确到微秒级别（us）的磁盘I/O延迟信息，传统的iostat可能无法直接提供。Linux内核本身可以支持纳秒级的精度记录和查询，但iostat工具默认不显示这么详细的数据。

如果需要更详细的I/O延迟统计数据，可以考虑以下方法：

使用其他工具：比如 blktrace 和 blkparse 工具组合可以提供非常详细的块设备请求级别的跟踪，包括每个请求的纳秒级精确延时。
直接读取/proc文件系统：

- /sys/block/<device>/stat 文件包含了一些基于操作系统的统计信息，虽然不是所有数据都是微秒级的，但部分字段如“_io_ticks”可以间接推算出延迟。
- /sys/block/<device>/queue/hw_sector_size、/sys/block/<device>/queue/physical_block_size 以及 /sys/block/<device>/queue/logical_block_size 等可以获取磁盘块大小相关的信息，结合I/O次数和时间可以计算更细致的延迟。

内核调试接口或模块：对于特定场景，可能需要使用内核的debugfs或其他内核模块提供的更精细粒度的性能指标。
自定义脚本或工具：根据需求编写自定义脚本或工具，通过读取底层硬件提供的接口或者内核暴露的详细统计信息，实现对I/O延迟的微秒级别统计。

在Linux下获取us级别的IO读写延迟，可以利用blktrace和blkparse工具进行跟踪分析。以下是一个简单的使用示例：

首先，通过blktrace收集I/O操作的详细信息：

sudo blktrace -d /dev/sda -o trace.dat

这里 /dev/sda 是你想要监控的块设备，替换为你实际需要监控的设备名。

然后，当完成所需的操作后，停止blktrace并使用blkparse解析收集的数据：

sudo blkparse -i trace.dat > parsed.txt

虽然blktrace和blkparse默认提供的是纳秒级（ns）的精度，但它们提供的数据量非常详细，你可以从中计算出每次I/O请求的精确延迟。

然而，如果编写一个直接从内核接口获取微秒级别延迟的C程序，那么这将涉及更复杂的内核编程，包括设置内核事件跟踪点、处理中断上下文以及解析硬件特定的计时器等。这样的程序通常不会短小简洁，而且对内核编程有较高的要求。

以下是一个简化的概念性伪代码，展示如何从内核角度追踪I/O延迟（请注意这并不是一个可以直接编译运行的完整程序，仅作为理解参考）：

#include <linux/kernel.h>
#include <linux/hrtimer.h>
#include <linux/blkdev.h>

struct io_trace {
    struct request *req;
    ktime_t start_time, end_time;
};

static void io_start(struct request_queue *q, struct request *req)
{
    struct io_trace *trace = req->end_io_data;
    trace->req = req;
    trace->start_time = ktime_get();
}

static void io_end(struct request *req)
{
    struct io_trace *trace = req->end_io_data;
    trace->end_time = ktime_get();

    // 计算延迟（单位为纳秒）
    u64 latency = ktime_us_delta(trace->end_time, trace->start_time);

    // 打印或记录延迟
    printk(KERN_INFO "I/O latency: %lld us\n", latency);
}

int init_module(void)
{
    struct io_trace trace;
    struct request_queue *q = bdev_get_queue(sb->s_bdev);

    // 初始化io_trace结构体
    memset(&trace, 0, sizeof(trace));
    req->end_io_data = &trace;

    // 注册回调函数
    blk_add_trace_hook(q, io_start, BLK_TA_QUEUE);
    blk_set_completion_callback(req, io_end);

    return 0;
}

void cleanup_module(void)
{
    // 清理注册的回调函数...
}

以上代码仅为示意，实际应用中需要考虑模块初始化、内存管理、错误处理等诸多复杂因素，并且需要了解内核驱动开发的相关知识才能正确实现。对于大部分应用场景，使用现成的性能分析工具如blktrace会更为便捷和可靠。

文章来源:https://blog.csdn.net/zhuzongpeng/article/details/135330128
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！