敏捷数据科学 - 数据可视化



数据可视化在数据科学中扮演着非常重要的角色。我们可以将数据可视化视为数据科学的一个模块。数据科学不仅仅包括构建预测模型,还包括解释模型并利用它们来理解数据和做出决策。数据可视化是将数据以最令人信服的方式呈现出的一个组成部分。

从数据科学的角度来看,数据可视化是一个突出显示特征,它展示了变化和趋势。

请考虑以下有效数据可视化的指导原则:

  • 将数据置于共同的尺度上。

  • 与圆形和正方形相比,使用条形图更有效地进行比较。

  • 散点图应使用合适的颜色。

  • 使用饼图显示比例。

  • 旭日图更有效地用于层次图。

敏捷需要一种简单的数据可视化脚本语言,并且与数据科学相结合,“Python”是建议用于数据可视化的语言。

示例 1

以下示例演示了特定年份计算的 GDP 的数据可视化。“Matplotlib”是 Python 中最好的数据可视化库。下面显示了此库的安装方法:

Demonstrates Data Visualization

请考虑以下代码以了解这一点:

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

输出

上述代码生成以下输出:

Code Generates

有很多方法可以使用轴标签、线型和点标记来自定义图表。让我们关注下一个示例,它演示了更好的数据可视化。这些结果可用于获得更好的输出。

Learn Data Science in-depth with real-world projects through our Data Science certification course. Enroll and become a certified expert to boost your career.

示例 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

输出

上述代码生成以下输出:

Code Generates Second
广告