📋 博主简介
- 💖 作者简介:大家好,我是wux_labs。😜
热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。- 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
- 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
- 🎉 请支持我:欢迎大家 点赞👍+收藏??+吐槽📝,您的支持是我持续创作的动力~🔥
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Matplotlib介绍。
数据可视化是一种提取有价值数据的有效方法,是数据分析和机器学习中非常重要的一环。它有助于提高分析效率,为机器学习模型提供可靠的数据基础。它可以帮助人们更直观地理解数据,更好地理解数据的趋势和变化,发现潜在的联系,从而帮助人们更好地构建机器学习模型,提高模型的准确性。此外,数据可视化可以帮助人们更好地发现数据中的噪声和异常。通过可视化,可以更容易地发现噪声数据和异常情况,从而减少机器学习模型的误差。常用的Python数据可视化工具包括Matplotlib、Seaborn、Pyecharts等。
Matplotlib是一个Python 2D绘图库,用于绘制各种类型的图形,包括折线图、柱状图、饼图、散点图等。可以自定义图形的样式和属性,可以添加标签、标题、网格等元素,可以设置图形的大小、分辨率、颜色等属性。Matplotlib采用三层结构来组织图形:
1)容器层。容器层是指在Matplotlib图形中用于组织和管理图形元素的结构,通常包括画板(Canvas)、画布(Figure)、坐标系(Axes)等几个部分。画板是Matplotlib的图形容器,用于显示和交互Matplotlib图形,例如缩放、平移、选择、保存等。画布是Matplotlib中最顶层容器,用于组织所有的坐标系、图例(Legend)、标题(Title)等元素,是整个图形的最外层容器。坐标系是位于画布内部的容器,可以理解为一个具体的子图,用于组织所有的图形元素,例如线条、标记、图例等。
2)辅助显示层。辅助显示层是坐标系内除了根据数据绘制的图像以外的内容,用于在Matplotlib图形中添加额外的信息和标注,以提高图形的可读性和表现力。主要包括外观(Facecolor)、边框线(Spines)、坐标轴(Axis)、坐标轴名称(Axis Label)、坐标轴刻度(Tick)、坐标轴刻度标签(Tick Label)、网格线(Grid)、图例、标题等内容。
3)图像层。图像层指坐标系内通过plot()、scatter()、bar()、histogram()、pie()等函数根据数据绘制出的图像。
要在项目中使用Matplotlib,需要在Python环境中安装Matplotlib,命令如下:
$ pip install matplotlib
在使用时需要在Python脚本中导入matplotlib,代码如下:
import matplotlib.pyplot as plt
折线图是Matplotlib中最基本的图形之一,Matplotlib提供了plot()方法用来绘制折线图,plot()方法的主要参数有:
在下面的案例中,定义了x轴和y轴的数据并绘制了折线图,代码如下:
# 构造数据
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [2, 3, 6, 4, 5, 8, 5, 9, 7, 10]
plt.plot(x, y) # 绘制折线图
plt.show() # 显示图形
执行代码,绘制的图形如图所示。
柱状图也是Matplotlib中最基本的图形之一,Matplotlib提供了bar()方法用来绘制柱状图,bar()方法的主要参数有:
在下面的案例中,定义了5种类别及对应的值并绘制柱状图,代码如下:
# 构造数据
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 12, 34, 32]
plt.bar(x=categories, height=values) # 绘制柱状图
plt.show() # 显示图形
执行代码,绘制的图形如图所示。
Matplotlib提供了pie()方法用来绘制饼图,pie()方法的主要参数有:
在下面的案例中,定义了饼图的数据、颜色、显示方式等,并绘制出饼图,代码如下:
data = [20, 30, 40, 25, 15] # 构造数据
labels = ['A', 'B', 'C', 'D', 'E'] # 定义标签
explode = [0, 0.2, 0, 0, 0] # 定义突出显示的切片
colors = ['#ff9999', '#66bbff', '#99ff99', '#ffcc99', '#ffccff'] # 定义颜色
plt.pie(x=data, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%') # 绘制饼图
plt.show() # 显示图形
执行代码,绘制的图形如图所示。
好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。