使用 Python 分割文本文件的最快方法是什么？

使用 Python 分割文本文件可以通过多种方式实现，具体取决于文件的大小和所需的输出格式。在本文中，我们将讨论使用 Python 分割文本文件的最快方法，同时考虑代码的性能和可读性。

split() 方法

分割文本文件最直接的方法之一是使用 Python 中内置的 split() 函数。此函数基于指定的定界符将字符串拆分为子字符串列表。

例如，以下代码按换行符分割文本文件并返回行列表：

with open('file.txt', 'r') as f:
   lines = f.read().split('\n')

这里，

内置的 split() 函数按换行符分割文本文件并返回行列表。
代码首先使用 open() 函数以 'r' 模式（表示读取）打开文件。这将返回一个文件对象，并将其存储在变量 f 中。
接下来，使用 read() 方法对文件对象进行操作，将文件的全部内容读取到内存中，作为一个单一的字符串。
然后，对该字符串调用 split() 函数，并将换行符 \n 作为分隔符传递。这将字符串拆分为子字符串列表，其中每个子字符串对应于原始文件中的一个行。最后，结果存储在变量 lines 中。

readline() 方法

前面提到的方法简单易读，但对于大型文件来说可能速度较慢，因为它会在分割之前将整个文件读取到内存中。如果您正在处理大型文件，则可能需要考虑改用 readline() 方法，该方法每次读取一行。

with open('file.txt', 'r') as f:
   lines = []
   for line in f:
      lines.append(line)

从示例中，

代码以与前面示例相同的方式打开文件。
然后我们创建一个名为 lines 的空列表。接下来，我们使用 for 循环迭代文件对象。
在 for 循环内，对文件对象调用 readline() 方法，该方法每次从文件中读取一行并将其赋值给变量 line。然后将此变量附加到 lines 列表。
这样，整个文件将逐行读取，并将行存储在列表中。

此方法比前一种方法更快，因为它每次读取一行，并且不需要将整个文件加载到内存中。但是，它仍然读取整个文件，对于非常大的文件来说速度可能会很慢。

mmap 模块

另一种选择是使用 Python 中的 mmap 模块，该模块允许您将文件映射到内存，从而提供一种高效的方式来访问文件，就好像它在内存中一样。以下是如何使用 mmap 分割文本文件的示例：

import mmap

with open('file.txt', 'r') as f:
   # memory-map the file
   mmapped_file = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)

   # split the file by newline characters
   lines = mmapped_file.read().split('\n')

对于大型文件，此方法效率最高，因为它允许您访问文件，就好像它在内存中一样，而无需实际将整个文件加载到内存中。

代码首先导入 mmap 模块。
接下来，以与之前相同的方式打开文件，并对文件对象调用 fileno() 方法以获取文件的文件描述符。
将其作为第一个参数传递给 mmap() 函数，并将 0 和 mmap.ACCESS_READ 分别作为第二个和第三个参数传递。这将文件映射到内存，并将结果存储在变量 mmapped_file 中。
然后，对内存映射文件调用 read() 方法，该方法将文件的全部内容读取到一个单一的字符串中，如前所述。
然后，对该字符串调用 split() 函数，再次将换行符 \n 作为分隔符传递。这将字符串拆分为子字符串列表，其中每个子字符串对应于原始文件中的一个行。最后，结果存储在变量 lines 中。

结论

总之，使用 Python 分割文本文件的最快方法取决于文件的大小。如果文件较小，可以使用 split() 函数或 readline() 方法。但是，对于大型文件，应使用 mmap 模块将文件映射到内存，从而提供一种快速有效的文件访问方式。

图沙尔·夏尔马

更新于：2023年2月1日

33K+ 浏览量

开启您的职业生涯

通过完成课程获得认证

立即开始

使用 Python 分割文本文件的最快方法是什么？

split() 方法

readline() 方法

mmap 模块

结论

开启您的 职业生涯

开启您的职业生涯