如何将TSV文件加载到Pandas DataFrame中?


有时,任务是分析数据集并使用来自TSV(制表符分隔值)文件的数据。为此,TSV文件有时会被转换为数据框。数据框是一个带标签的二维结构,具有不同类型的列。在本文中,我们将使用两个不同的示例,结合Python代码和名为pandas的Python库来读取TSV文件并将其加载到数据框中。对于这些示例,我们使用Kaggle上提供的一个Zomato数据集。Kaggle数据集以CSV(逗号分隔值)格式提供,因此首先下载它,然后使用在线软件链接将其转换为TSV格式。在第一个示例中,我们使用计算机系统中安装的Python来运行一个为读取TSV文件并使用pandas函数将其加载到数据框而编写的Python程序。在另一个示例中,我们将使用Google Colab演示一种方法,即使没有在计算机中安装Python,仍然可以使用Python和pandas,并在使用另一个函数后将TVS文件读取到数据框中。

使用的Zomato.TSV文件

图:此tsv文件包含9551行和21列。

示例1:使用带delimiter='\t'的read_table函数将TSV文件加载到Pandas DataFrame中

设计步骤和编码

  • 步骤1 − 首先导入pandas。Pandas是一个开源的、易于使用且灵活的库,通常用于在使用Python数据集时进行数据分析和处理。

  • 步骤2 − 现在读取zomato.tsv文件,因为这里给出的数据集将用于将其加载到数据框中。

  • 步骤3 − 创建一个数据框dff1,并使用pandas中的read_table函数读取TSV文件。

  • 步骤4 − 使用delimiter='\t'和zomato.tsv的路径。通过使用head函数打印此数据框中的一些行和列。

  • 步骤5 − 创建一个数据框dff2,并再次使用read_table函数,但这次选择索引列。

  • 步骤6 − 创建一个数据框dff3,并再次使用read_table函数,但在跳过一些行之后打印行。

保存数据分析所需的数据文件/CSV文件

对于这些示例,我们将使用Kaggle上提供的数据。登录Kaggle并从此链接下载CSV文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data

该数据集以CSV文件形式提供。

将CSV文件转换为TSV文件,因为示例需要TSV文件

使用以下在线转换器将CSV文件转换为TSV 格式。https://products.groupdocs.app/conversion/csv-to-tsv

上传CSV文件,进行转换,然后下载TSV文件。现在,将此zomato.tsv文件用于以下示例。

使用带delimiter='\t'的read_table函数将TSV文件加载到Pandas DataFrame中。

在Python文件中编写以下代码

import pandas as pdd
dff1 = pdd.read_table("C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv",delimiter='\t')
print(dff1.head())
dff2 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',index_col=1)
print(dff2.head())
dff3 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',skiprows=range(3,6))
print(dff3.head())

输出

在命令窗口中运行python文件

图1:显示使用cmd窗口的结果。

示例2:使用带sep='\t'的read_csv函数将TSV文件加载到Pandas DataFrame中

设计步骤和编码

  • 步骤1 − 使用您的Google帐户登录。转到Google Colab。打开一个新的Colab笔记本,并在其中编写python代码。

  • 步骤2 − 上传从Kaggle下载的csv文件转换成的tsv文件 zomato.tsv。这里给出的数据集将用于将其加载到数据框中。

  • 步骤3 − 现在导入pandas。Pandas是一个开源的、易于使用且灵活的库,通常用于在使用Python数据集时进行数据分析和处理。

  • 步骤4 − 创建一个数据框dff,并使用pandas中的read_csv函数读取TSV文件。

  • 步骤5 − 使用sep='\t'和文件名'zomato.tsv'。通过使用head函数打印此数据框中的一些行和列。

  • 步骤6 − 打印数据框的形状。它将显示数据集中有多少行和列。

  • 步骤7 − 然后声明一些列名来描述,这次不要打印所有列。

  • 步骤8 − 点击给定代码单元格上的播放按钮执行程序。检查结果,它将显示在colab笔记本中。

上传数据,tsv文件

#Uploading the tsv
from google.colab import files
data_to_load = files.upload()

读取TSV文件并将指定列加载到数据框中的代码

#import the required Library
import pandas as pdd
#Select all columns 
#dff = pdd.read_csv("zomato.tsv",sep="\t")
#Select specified columns 
dff = pdd.read_csv("zomato.tsv",sep="\t", usecols = ['Restaurant ID','Restaurant Name','City'])
#print the dataframe header and some rows
dff.head()

输出

   Restaurant ID          Restaurant Name                City
0        6317637         Le Petit Souffle         Makati City 
1        6304287         Izakaya Kikufuji         Makati City
2        6300002   Heat - Edsa Shangri-La    Mandaluyong City
3        6318506                     Ooma    Mandaluyong City
4        6314302              Sambo Kojin    Mandaluyong City

结论

在这篇Python文章中,我们说明了两个不同的示例,展示了如何将TSV加载到数据框中。首先,我们给出了从Kaggle下载CSV格式数据集,然后将其转换为TSV格式文件并保存的方法。此TSV文件将使用程序中的pandas read_table函数加载到数据框中。在第二个示例中,我们使用Google Colab编写Python程序,并使用Pandas read_csv函数使用相同的TSV格式数据集将数据加载到数据框中。

更新于:2023年5月11日

4K+ 次浏览

启动您的职业生涯

通过完成课程获得认证

开始
广告
© . All rights reserved.