使用Python (tarfile) 读取和写入tar存档文件
‘tar’ 实用程序最初是为 UNIX 操作系统引入的。其目的是将多个文件收集到单个存档文件中,通常称为 tarball,这使得分发文件变得容易。Python 标准库中的 tarfile 模块中的函数有助于根据需要创建 tar 存档和从 tarball 中提取文件。存档可以使用 gzip、bz2 和 lzma 压缩,也可以完全不压缩。
此模块中定义的主要函数是 main(),使用它可以完成写入 tar 文件或从中读取的操作。
Open()
此函数返回与作为参数提供给它的文件名相对应的 TarFile 对象。该函数需要另一个名为 mode 的参数,默认为 'r',表示不压缩。其他模式如下所示:
序号 | 模式及操作 |
---|---|
1 | 'r' 或 'r:*' 以透明压缩方式打开以进行读取。 |
2 | 'r:' 打开以读取,不压缩。 |
3 | 'r:gz' 打开以使用 gzip 压缩进行读取。 |
4 | 'r:bz2' 打开以使用 bzip2 压缩进行读取。 |
5 | 'r:xz' 打开以使用 lzma 压缩进行读取。 |
6 | 'x' 或 'x:' 独占创建 tar 文件,不压缩。 |
7 | 'x:gz' 创建使用 gzip 压缩的 tar 文件。 |
8 | 'x:bz2' 创建使用 bzip2 压缩的 tar 文件。 |
9 | 'x:xz' 创建使用 lzma 压缩的 tar 文件。 |
10 | 'a' 或 'a:' 打开以进行追加,不压缩。 |
11 | 'w' 或 'w:' 打开以进行无压缩写入。 |
12 | 'w:gz' 打开以进行 gzip 压缩写入。 |
13 | 'w:bz2' 打开以进行 bzip2 压缩写入。 |
14 | 'w:xz' 打开以进行 lzma 压缩写入。 |
该模块定义了 TarFile 类。可以调用构造函数来实例化 TarFile 对象,而不是 open() 函数。
TarFile()
此构造函数也需要文件名和 mode 参数。mode 参数的可能值如上所示。
此类中的其他方法如下:
add()
此方法将文件添加到存档中。该方法需要一个名称,可以是文件、目录、符号链接、快捷方式等的名称。默认情况下,目录会递归添加。要防止递归添加,请将 recursive 参数设置为 False。
addfile()
此方法将 TarInfo 对象添加到存档中。
extractall()
如果未明确提供其他路径,此方法会将存档的所有成员提取到当前路径中。
extract()
此方法将指定的成员提取到给定的路径,默认为当前路径。
以下示例打开一个使用 gzip 算法进行压缩的 tar 文件,并在其中添加一个文件。
>>> fp = tarfile.open("zen.tar.gz","w:gz") >>> fp.add("zen.txt") >>> fp.close()
假设 'zen.txt' 文件存在于当前工作目录中,它将被添加到 'zen.tar.gz' 文件中。
以下代码从 tar 存档中提取文件,并提取所有文件(在本例中只有一个文件),并将它们放入当前文件夹中。为了验证结果,您可以删除或重命名当前文件夹中的 'zen.txt'。
>>> fp = tarfile.open("zen.tar.gz","r:gz") >>> fp.extractall() >>> fp.close()
您会发现 'zen.txt' 文件将出现在当前目录中。
要创建一个包含当前目录中所有文件的 tar 文件,请使用以下代码:
import tarfile, glob >>> fp=tarfile.open('file.tar','w') >>> for file in glob.glob('*.*'): fp.add(file) >>> fp.close()
命令行界面
tar 文件的创建和提取可以通过命令行界面实现。例如,通过在命令窗口中执行以下命令,将 'lines.txt' 文件添加到 tar 文件中:
C:\python36 >python -m tarfile -c line.tar lines.txt
可以使用以下命令行选项。
-l 或 --list | 列出 tar 文件中的文件。 |
-c 或 --create | 从源文件创建 tar 文件。 |
-e 或 --extract | 如果未指定 output_dir,则将 tar 文件提取到当前目录。 |
-t 或 --test | 测试 tar 文件是否有效。 |
-v 或 --verbose | 详细输出。 |
以下命令行将在当前目录下的 newdir 文件夹中提取 line.tar。
C:\python36>python -m tarfile -e line.tar newdir/
以下命令行将列出 tar 存档中的所有文件。
C:\python36>python -m tarfile -l files.tar
本文介绍了 tarfile 模块中定义的类和函数。