1K+ 次浏览
有时需要沿 DataFrame 的元素应用某些函数。并非所有函数都可以向量化。这就是 `applymap` 函数发挥作用的地方。它接受单个值作为输入并返回单个值作为输出。示例 在线演示 import pandas as pd import numpy as np my_df = pd.DataFrame(np.random.randn(5, 5), columns=['col_1', 'col_2', 'col_3', 'col_4', 'col_5']) print("生成的 DataFrame 为") print(my_df) my_df.applymap(lambda x:x*11.45) print("使用 applymap 函数") print(my_df.apply(np.mean))输出生成的 DataFrame 为 col_1 col_2 col_3 col_4 col_5 0 -0.671510 -0.860741 0.886484 0.842158 ... 阅读更多
323 次浏览
有时需要沿 DataFrame 的轴应用某些函数。可以指定轴,否则默认轴被认为是按列的,其中每列都被视为一个数组。如果指定了轴,则操作将对数据按行执行。`apply` 函数可以与 DataFrame 上的点运算符结合使用。让我们来看一个例子 - 示例 在线演示 import pandas as pd import numpy as np my_data = {'Age':pd.Series([45, 67, 89, 12, 23]), 'value':pd.Series([8.79, 23.24, 31.98, 78.56, 90.20])} print("DataFrame 为:") my_df = pd.DataFrame(my_data) print(my_df) print("数据的描述为:") ... 阅读更多
88 次浏览
可以使用不同的函数来获取有关数据的大量信息。但是,如果我们希望获取所有关于数据的信息,则可以使用 `describe` 函数。此函数将提供诸如“计数”、“均值”、“标准差”、“第 25 个百分位数”、“第 50 个百分位数”和“第 75 个百分位数”等信息。示例 在线演示 import pandas as pd my_data = {'Name':pd.Series(['Tom', 'Jane', 'Vin', 'Eve', 'Will']), 'Age':pd.Series([45, 67, 89, 12, 23]), 'value':pd.Series([8.79, 23.24, 31.98, 78.56, 90.20]) } print("DataFrame 为:") my_df = pd.DataFrame(my_data) print(my_df) print("数据的描述为:") print(my_df.describe())输出DataFrame 为: Name Age value 0 Tom ... 阅读更多
6K+ 次浏览
标准差说明数据集中的值是如何分散的。它们还说明数据集中的值与数据集中列的算术平均值相差多远。有时,可能需要获取特定数值列的标准差。这时可以使用 `std()` 函数。需要计算平均值的列可以索引到 DataFrame,并且可以使用点运算符在此列上调用平均值函数。也可以传递列的索引来查找标准差。让我们… 阅读更多
2K+ 次浏览
有时,可能需要获取特定数值列的平均值。这时可以使用 `mean` 函数。需要计算平均值的列可以索引到 DataFrame,并且可以使用点运算符在此列上调用平均值函数。也可以传递列的索引来查找平均值。`mean()` 指的是找到所有值的总和并将其除以数据集中值的总数。让我们来看一下演示 - 示例 在线演示 import pandas as ... 阅读更多
115 次浏览
决策树是随机森林算法的基本构建块。它被认为是机器学习中最流行的算法之一,用于分类目的。它们非常流行,因为它们易于理解。决策树给出的决策可以用来解释为什么做出了某种预测。这意味着该过程的输入和输出对用户来说将是清晰的。它们也是集成方法(如 bagging、随机森林和梯度提升)的基础。它们也称为 CART,即分类与回归树。… 阅读更多
486 次浏览
NumPy 指的是“数值” “Python”。它是一个包含多维数组对象和多种有助于处理数组的方法的库。NumPy 可用于对数组执行各种操作。它与 SciPy、Matplotlib 等软件包结合使用。NumPy+Matplotlib 可以理解为 MatLab 的替代品。它是一个开源软件包,这意味着任何人都可以使用它。NumPy 软件包中最重要的对象是 n 维数组,称为“ndarray”。它定义了相同类型项的集合。这些值… 阅读更多
989 次浏览
Scikit-learn,通常称为 sklearn,是 Python 中用于实现机器学习算法的库。它是一个开源库,因此可以免费使用。此库构建在 Numpy、SciPy 和 Matplotlib 库之上。“行进方块”方法用于查找图像中的轮廓。使用 `skimage` 库的 `measure` 类中的 `find_contours` 函数。在此函数中,数组中的值以线性方式进行插值。这样,输出图像中轮廓的精度会更好得多。如果… 阅读更多
593 次浏览
数据预处理基本上是指将从各种资源或单个资源收集的所有数据收集到通用格式或统一数据集(取决于数据类型)的任务。由于现实世界的数据永远不会是理想的,因此数据可能存在缺失单元格、错误、异常值、列差异等等。有时,图像可能未正确对齐,或者可能不清楚,或者可能尺寸很大。预处理的目标是消除这些差异和错误。要获取图像的像素,可以使用名为 `flatten` 的内置函数… 阅读更多
352 次浏览
数据预处理基本上是指将从各种资源或单个资源收集的所有数据整理成通用格式或统一数据集(取决于数据的类型)的任务。由于现实世界中的数据从来都不是理想的,因此数据可能存在缺失单元格、错误、异常值、列差异等等。有时,图像可能未正确对齐,或者不够清晰,或者尺寸过大。预处理的目标是消除这些差异和错误。要获取图像的分辨率,可以使用内置函数……阅读更多