如何在Python Pandas中使用模板向DataFrame追加新行
如何在Python Pandas中使用模板向DataFrame追加新行。
引言
作为一名数据工程专家,我经常最终创建的派生列多于行,因为创建和发送数据给我进行分析的任务应该由其他数据库专家负责。然而,这并非一直如此。
我们必须创建样本行,而不是等待数据专家团队发送数据给我们。在本主题中,我将展示创建行的巧妙技巧。
如何操作…
在本示例中,我们将首先使用.loc属性向小型数据集追加行,然后将使用.append方法。
1.让我们首先创建一个稍后添加行的DataFrame。
示例
import pandas as pd import numpy as np players_info = pd.DataFrame(data=[ {"players": "Roger Federer", "titles": 20}, {"players": "Rafael Nadal", "titles": 20}, {"players": "Novak Djokovic", "titles": 17}, {"players": "Andy Murray", "titles": 3}], columns=["players", "titles"])
输出
print(players_info.info())
示例
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4 entries, 0 to 3 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 players 4 non-null object 1 titles 4 non-null int64 dtypes: int64(1), object(1) memory usage: 192.0+ bytes None
1. 现在让我们使用.loc属性向DataFrame中添加新的球员“Dominic Theim”。
new_Player = ['Dominic Theim', 1] players_info.loc[4] = new_Player
输出
print(players_info)
players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Dominic Theim 1
1. 使用相同的.loc属性,让我们将新行添加到DataFrame的末尾。这里我将展示如何向DataFrame添加字典。
new_player = {'players': 'Daniel Medvedev', 'titles': 0} players_info.loc[len(players_info)] = new_player
输出
print(players_info)
players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Dominic Theim 1 5 Daniel Medvedev 0
1. 我们还可以向DataFrame添加包含数据的Pandas Series。
players_info.loc[len(players_info)] = pd.Series({'players': 'Andy Zverev', 'titles': 0})
输出
print(players_info)
players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Dominic Theim 1 5 Daniel Medvedev 0 6 Andy Zverev 0
结论
我们已经使用.loc方法在上面4个步骤中添加了数据。.loc属性就地修改DataFrame。
在接下来的几个步骤中,我们将了解.append方法,它不会修改调用DataFrame,而是返回一个包含附加行的新DataFrame副本。
.append的第一个参数必须是另一个DataFrame、Series、字典或列表。
示例
# Create a DataFrame with index players_info = pd.DataFrame(data=[ {"players": "Roger Federer", "titles": 20}, {"players": "Rafael Nadal", "titles": 20}, {"players": "Novak Djokovic", "titles": 17}, {"players": "Andy Murray", "titles": 3}], columns=["players", "titles"], index=["roger", "nadal", "djokovic", "murray"])
# Add a new row(dictionary) to DataFrame using .append method. players_info.append({'players': 'Daniel Medvedev', 'titles': 0})
--------------------------------------------------------------------------- TypeError Traceback (most recent call last) --------------------------------------------------------------------------- TypeError Traceback (most recent call last) in 1 # Add a new row(dictionary) to DataFrame using .append method. ----> 2 players_info.append({'players': 'Daniel Medvedev', 'titles': 0}) ~\anaconda3\lib\site-packages\pandas\core\frame.py in append(self, other, ignore_index, verify_integrity, sort) 7046 other = Series(other) 7047 if other.name is None and not ignore_index: -> 7048 raise TypeError( 7049 "Can only append a Series if ignore_index=True " 7050 "or if the Series has a name"
TypeError 只能在ignore_index=True或Series具有名称时附加Series
当我尝试追加字典时,它引发了一个异常,要求我们使用参数ignore_index=True。所以让我添加这个建议的参数并看看它有什么作用。
new_df = players_info.append({'players': 'Daniel Medvedev', 'titles': 0}, ignore_index=True)
输出
print(f" *** Original with index \n {players_info} \n\n\n *** Modified index \n {new_df}")
*** Original with index players titles roger Roger Federer 20 nadal Rafael Nadal 20 djokovic Novak Djokovic 17 murray Andy Murray 3 *** Modified index players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Daniel Medvedev 0
在我使用ignore_index=True参数后,你从输出中观察到了什么?是的,当ignore_index设置为True时,旧索引将被完全删除并替换为从0到n-1的RangeIndex。
.append方法在您想一次性向DataFrame添加多行时非常有用。
player1 = pd.Series({'players': 'Andy Zverev', 'titles': 0}, name='zverev') player2 = pd.Series({'players': 'Dominic Theim', 'titles': 1}, name='theim') new_df_1 = players_info.append([player1, player2])
输出
print(new_df_1)
players titles roger Roger Federer 20 nadal Rafael Nadal 20 djokovic Novak Djokovic 17 murray Andy Murray 3 zverev Andy Zverev 0 theim Dominic Theim 1
好的,现在您已经了解了如何添加行的基本知识,我们将深入探讨如何在具有许多列的DataFrame中添加行。
df = pd.read_csv("https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv")
输出
print(df.info())
示例
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4803 entries, 0 to 4802 Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 budget 4803 non-null int64 1 id 4803 non-null int64 2 original_language 4803 non-null object 3 original_title 4803 non-null object 4 popularity 4803 non-null float64 5 release_date 4802 non-null object 6 revenue 4803 non-null int64 7 runtime 4801 non-null float64 8 status 4803 non-null object 9 title 4803 non-null object 10 vote_average 4803 non-null float64 11 vote_count 4803 non-null int64 dtypes: float64(3), int64(4), object(5) memory usage: 450.4+ KB None
来自Google的这个数据集有12列,如果您手动输入新数据行,很容易输错列名或忘记一列。那么我们如何避免这个问题呢?有一种方法,只需创建一个列名模板。
columns_dictionary = df.iloc[0].to_dict()
##### Output:
print(columns_dictionary)
{'budget': 237000000, 'id': 19995, 'original_language': 'en', 'original_title': 'Avatar', 'popularity': 150.437577, 'release_date': '10/12/2009', 'revenue': 2787965087, 'runtime': 162.0, 'status': 'Released', 'title': 'Avatar', 'vote_average': 7.2, 'vote_count': 11800}
因此,您现在可能明白了,我们已经获取了第一行并将其转换为字典。好的,我们也得到了列和值,现在让我们使用字典推导式清除旧值,将任何之前的字符串值分配为空字符串,其他值分配为缺失值。
此字典现在可以作为您想要输入的任何新数据的模板。
示例
import datetime new_data_dict = {} for a, b in columns_dictionary.items(): if isinstance(b, str): new_data_dict[a] = np.random.choice(list('abcde')) elif isinstance(b, datetime.date): new_data_dict[a] = np.nan else: new_data_dict[a] = np.nan
输出
print(new_data_dict)
{'budget': nan, 'id': nan, 'original_language': 'e', 'original_title': 'a', 'popularity': nan, 'release_date': 'b', 'revenue': nan, 'runtime': nan, 'status': 'e', 'title': 'c', 'vote_average': nan, 'vote_count': nan}