1K+ 次浏览
有时需要沿 DataFrame 的元素应用某些函数。并非所有函数都可以向量化。这就是 `applymap` 函数发挥作用的地方。它接受单个值作为输入并返回单个值作为输出。示例 在线演示import pandas as pd import numpy as np my_df = pd.DataFrame(np.random.randn(5, 5), columns=['col_1', 'col_2', 'col_3', 'col_4', 'col_5']) print("生成的 DataFrame 为") print(my_df) my_df.applymap(lambda x:x*11.45) print("使用 applymap 函数") print(my_df.apply(np.mean))输出生成的 DataFrame 为 col_1 col_2 col_3 col_4 col_5 0 -0.671510 -0.860741 0.886484 0.842158 ... 阅读更多
323 次浏览
有时需要沿 DataFrame 的轴应用某些函数。可以指定轴,否则默认轴被视为列方向,其中每一列都被视为一个数组。如果指定了轴,则对数据按行执行操作。`apply` 函数可以与 DataFrame 上的点运算符一起使用。让我们来看一个例子——示例 在线演示import pandas as pd import numpy as np my_data = {'Age':pd.Series([45, 67, 89, 12, 23]), 'value':pd.Series([8.79, 23.24, 31.98, 78.56, 90.20])} print("DataFrame 为:") my_df = pd.DataFrame(my_data) print(my_df) print("数据的描述为: ... 阅读更多
88 次浏览
可以使用不同的函数获得有关数据的许多信息。但是,如果我们希望获得有关数据的所有信息,可以使用 `describe` 函数。此函数将提供诸如“计数”、“均值”、“标准差”、“第 25 个百分位数”、“第 50 个百分位数”和“第 75 个百分位数”等信息。示例 在线演示import pandas as pd my_data = {'Name':pd.Series(['Tom', 'Jane', 'Vin', 'Eve', 'Will']), 'Age':pd.Series([45, 67, 89, 12, 23]), 'value':pd.Series([8.79, 23.24, 31.98, 78.56, 90.20]) } print("DataFrame 为:") my_df = pd.DataFrame(my_data) print(my_df) print("数据的描述为:") print(my_df.describe())输出DataFrame 为: Name Age value 0 Tom ... 阅读更多
6K+ 次浏览
标准差说明了数据集中值是如何分布的。它们还说明了数据集中值与数据集中列的算术平均值的距离。有时,可能需要获得本质上是数字的特定列的标准差。这就是可以使用 `std()` 函数的地方。可以使用点运算符将需要计算平均值的列索引到 DataFrame,并在此基础上调用平均值函数。还可以传递列的索引来查找标准差。让我们… 阅读更多
2K+ 次浏览
有时,可能需要获得本质上是数字的特定列的平均值。这就是可以使用 `mean` 函数的地方。可以使用点运算符将需要计算平均值的列索引到 DataFrame,并在此基础上调用平均值函数。还可以传递列的索引来查找平均值。`mean()` 指的是查找所有值的总和并将其除以数据集中值的总数。让我们来看一个演示——示例 在线演示import pandas as ... 阅读更多
115 次浏览
决策树是随机森林算法的基本构建块。它被认为是机器学习中最流行的算法之一,用于分类目的。它们非常流行,因为它们易于理解。决策树给出的决策可以用来解释为什么做出了某种预测。这意味着该过程的输入和输出将对用户清晰明了。它们也是集成方法(如 bagging、随机森林和梯度提升)的基础。它们也被称为 CART,即分类和回归树。 ... 阅读更多
486 次浏览
NumPy 指的是“数值” “Python”。它是一个包含多维数组对象和多个有助于处理数组的方法的库。NumPy 可用于对数组执行各种操作。它与 SciPy、Matplotlib 等软件包结合使用。NumPy+Matplotlib 可以理解为 MatLab 的替代品。它是一个开源软件包,这意味着任何人都可以使用它。NumPy 包中最重要的对象是 n 维数组,称为“ndarray”。它定义了相同类型项目的集合。这些值… 阅读更多
989 次浏览
Scikit-learn(通常称为 sklearn)是 Python 中用于实现机器学习算法的库。它是一个开源库,因此可以免费使用。此库构建在 Numpy、SciPy 和 Matplotlib 库之上。“marching squares” 方法用于查找图像中的轮廓。“skimage” 库的“measure” 类中提供的“find_contours” 函数用于此目的。在此,数组中的值以线性方式进行插值。这样,输出图像中轮廓的精度会更好得多。如果… 阅读更多
593 次浏览
数据预处理基本上是指将所有数据(从各种资源或单个资源收集)收集到通用格式或统一数据集(取决于数据类型)的任务。由于现实世界的数据从来都不是理想的,因此数据可能存在缺失单元格、错误、异常值、列差异等等。有时,图像可能未正确对齐,或者不够清晰,或者尺寸过大。预处理的目标是去除这些差异和错误。要获取图像的像素,可以使用名为“flatten”的内置函数…… 阅读更多
352 次浏览
数据预处理基本上是指将所有数据(从各种资源或单个资源收集)收集到通用格式或统一数据集(取决于数据类型)的任务。由于现实世界的数据从来都不是理想的,因此数据可能存在缺失单元格、错误、异常值、列差异等等。有时,图像可能未正确对齐,或者不够清晰,或者尺寸过大。预处理的目标是去除这些差异和错误。要获取图像的分辨率,可以使用内置函数…… 阅读更多