Skip to main content
 首页 » 编程设计

linux之读取大文件时如何选择 block 大小

2024年02月20日16jillzhang

我知道读取 block 大小是文件系统 block 大小倍数的文件会更好。

1)为什么会这样?我的意思是,假设 block 大小为 8kb,而我读取了 9kb。这意味着它必须获取 12kb,然后去掉另外的 3kb。 是的,它确实做了一些额外的工作,但是除非你的 block 大小真的很大,否则这会有很大的不同吗?

我的意思是,如果我正在读取 1tb 文件,这肯定会产生影响。

我能想到的另一个原因是 block 大小是指硬盘上的一组扇区(请纠正我)。所以它可能指向 8、16、32 或者只是一个扇区。那么如果该 block 指向更多扇区,您的硬盘本质上就必须做更多工作?我说得对吗?

2) 假设 block 大小为 8kb。我现在一次读取 16kb 吗? 1MB? 1GB?我应该使用什么作为 block 大小? 我知道可用内存是一个限制,但除此之外还有哪些其他因素影响我的选择?

提前非常感谢您的所有回答。

请您参考如下方法:

理论上,当缓冲区处于空闲状态时,可能会出现最快的 I/O 页对齐,并且当其大小是系统 block 的倍数时 尺寸。

如果文件连续存储在硬盘上,最快的I/O 吞吐量可以通过逐个柱面读取来获得。 (那里 甚至可能没有任何延迟,因为当你读取整个轨道时 你不需要从头开始,你可以从中间开始, 并循环)。不幸的是,现在几乎不可能 这样做,因为硬盘固件隐藏了物理布局 扇区,并且可以使用需要甚至寻找的替换扇区 读取单个轨道。操作系统文件系统也可能尝试传播 文件 block 遍布整个磁盘(或者至少遍布整个柱面) 组),以避免在时对大文件进行长时间查找 访问小文件。

因此,您可以尝试考虑物理轨道,而不是考虑 考虑硬盘缓冲区大小。大多数硬盘的缓冲区大小为 8 MB,一些 16 MB。因此以最大 1 MB 或 2 MB 的 block 读取文件 应该让硬盘固件优化吞吐量而无需 停止它的缓冲区。

但是,如果上面有很多层,例如 RAID,那么所有的赌注都是 关闭。

实际上,您能做的最好的事情就是对您的特定进行基准测试 情况。