pandas 读取Excel大文件比较慢，内存占比并不高，是正常的么

xsmile 发布于 8个月前分类：Python

在读取大型 Excel 文件时，相对较慢的速度是正常的。这是由于 Excel 文件的数据结构和读取方式所导致的。

Pandas 使用了内存映射（memory-mapping）的技术来处理大型 Excel 文件。当你使用read_excel()函数读取文件时，Pandas会将数据存储在内存中的一个缓冲区中。然而，由于 Excel 文件的复杂性和数据结构的多样性，Pandas需要在内部执行额外的操作来解析和转换数据，这会导致读取速度变慢。

此外，即使内存占用率不高，仍然可能出现较慢的情况。这是因为读取大型文件需要进行大量的磁盘输入/输出操作（I/O），而磁盘 I/O 是相对较慢的操作，通常比内存访问要慢得多。因此，无论内存占用率如何，读取大型 Excel 文件的速度都有限制。

为了提高读取大型 Excel 文件的性能，你可以尝试以下方法：

使用 dtype 参数：通过指定列的数据类型，可以避免 Pandas 自动推断类型导致的性能开销。
分块读取：将大型文件划分为较小的块，逐块读取以降低内存压力，并提高整体读取速度。
优化 Excel 文件：删除不必要的格式、图片或多余的工作表，并确保数据以最小化的形式存在。

如果需要处理非常大的文件，超出了 Pandas 的处理能力，你可能需要考虑使用其他专门用于处理大型数据集的工具，如 Apache Spark 或 Dask 等。

总的来说，读取大型 Excel 文件比较慢是正常现象，因为这涉及到复杂的数据结构和磁盘 I/O 操作。优化数据和选择适当的处理工具可以改善性能。

0个回复

暂无回复

问答社区

pandas 读取Excel大文件比较慢，内存占比并不高，是正常的么

0个回复

推荐访问