如何将TSV文件加载到Pandas DataFrame中?
有时,任务是分析数据集并使用来自TSV(制表符分隔值)文件的数据。为此,TSV文件有时会被转换为数据框。数据框是一个带标签的二维结构,具有不同类型的列。在本文中,我们将使用两个不同的示例,结合Python代码和名为pandas的Python库来读取TSV文件并将其加载到数据框中。对于这些示例,我们使用Kaggle上提供的一个Zomato数据集。Kaggle数据集以CSV(逗号分隔值)格式提供,因此首先下载它,然后使用在线软件链接将其转换为TSV格式。在第一个示例中,我们使用计算机系统中安装的Python来运行一个为读取TSV文件并使用pandas函数将其加载到数据框而编写的Python程序。在另一个示例中,我们将使用Google Colab演示一种方法,即使没有在计算机中安装Python,仍然可以使用Python和pandas,并在使用另一个函数后将TVS文件读取到数据框中。
使用的Zomato.TSV文件
图:此tsv文件包含9551行和21列。
示例1:使用带delimiter='\t'的read_table函数将TSV文件加载到Pandas DataFrame中
设计步骤和编码
步骤1 − 首先导入pandas。Pandas是一个开源的、易于使用且灵活的库,通常用于在使用Python数据集时进行数据分析和处理。
步骤2 − 现在读取zomato.tsv文件,因为这里给出的数据集将用于将其加载到数据框中。
步骤3 − 创建一个数据框dff1,并使用pandas中的read_table函数读取TSV文件。
步骤4 − 使用delimiter='\t'和zomato.tsv的路径。通过使用head函数打印此数据框中的一些行和列。
步骤5 − 创建一个数据框dff2,并再次使用read_table函数,但这次选择索引列。
步骤6 − 创建一个数据框dff3,并再次使用read_table函数,但在跳过一些行之后打印行。
保存数据分析所需的数据文件/CSV文件
对于这些示例,我们将使用Kaggle上提供的数据。登录Kaggle并从此链接下载CSV文件: https://www.kaggle.com/datasets/shrutimehta/zomato-restaurants-data
该数据集以CSV文件形式提供。
将CSV文件转换为TSV文件,因为示例需要TSV文件
使用以下在线转换器将CSV文件转换为TSV 格式。https://products.groupdocs.app/conversion/csv-to-tsv
上传CSV文件,进行转换,然后下载TSV文件。现在,将此zomato.tsv文件用于以下示例。
使用带delimiter='\t'的read_table函数将TSV文件加载到Pandas DataFrame中。
在Python文件中编写以下代码
import pandas as pdd
dff1 = pdd.read_table("C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv",delimiter='\t')
print(dff1.head())
dff2 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',index_col=1)
print(dff2.head())
dff3 = pdd.read_table('C:/Users/saba2/Desktop/article/articles_py/tsv/zomato.tsv', delimiter='\t',skiprows=range(3,6))
print(dff3.head())
输出
在命令窗口中运行python文件
图1:显示使用cmd窗口的结果。
示例2:使用带sep='\t'的read_csv函数将TSV文件加载到Pandas DataFrame中
设计步骤和编码
步骤1 − 使用您的Google帐户登录。转到Google Colab。打开一个新的Colab笔记本,并在其中编写python代码。
步骤2 − 上传从Kaggle下载的csv文件转换成的tsv文件 zomato.tsv。这里给出的数据集将用于将其加载到数据框中。
步骤3 − 现在导入pandas。Pandas是一个开源的、易于使用且灵活的库,通常用于在使用Python数据集时进行数据分析和处理。
步骤4 − 创建一个数据框dff,并使用pandas中的read_csv函数读取TSV文件。
步骤5 − 使用sep='\t'和文件名'zomato.tsv'。通过使用head函数打印此数据框中的一些行和列。
步骤6 − 打印数据框的形状。它将显示数据集中有多少行和列。
步骤7 − 然后声明一些列名来描述,这次不要打印所有列。
步骤8 − 点击给定代码单元格上的播放按钮执行程序。检查结果,它将显示在colab笔记本中。
上传数据,tsv文件
#Uploading the tsv from google.colab import files data_to_load = files.upload()
读取TSV文件并将指定列加载到数据框中的代码
#import the required Library
import pandas as pdd
#Select all columns
#dff = pdd.read_csv("zomato.tsv",sep="\t")
#Select specified columns
dff = pdd.read_csv("zomato.tsv",sep="\t", usecols = ['Restaurant ID','Restaurant Name','City'])
#print the dataframe header and some rows
dff.head()
输出
Restaurant ID Restaurant Name City 0 6317637 Le Petit Souffle Makati City 1 6304287 Izakaya Kikufuji Makati City 2 6300002 Heat - Edsa Shangri-La Mandaluyong City 3 6318506 Ooma Mandaluyong City 4 6314302 Sambo Kojin Mandaluyong City
结论
在这篇Python文章中,我们说明了两个不同的示例,展示了如何将TSV加载到数据框中。首先,我们给出了从Kaggle下载CSV格式数据集,然后将其转换为TSV格式文件并保存的方法。此TSV文件将使用程序中的pandas read_table函数加载到数据框中。在第二个示例中,我们使用Google Colab编写Python程序,并使用Pandas read_csv函数使用相同的TSV格式数据集将数据加载到数据框中。
数据结构
网络
关系数据库管理系统 (RDBMS)
操作系统
Java
iOS
HTML
CSS
Android
Python
C语言编程
C++
C#
MongoDB
MySQL
Javascript
PHP