《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

发布时间:2024年01月05日

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏??+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Matplotlib介绍。

图书在:当当京东机械工业出版社以及各大书店有售!

Python数据可视化工具介绍

数据可视化是一种提取有价值数据的有效方法,是数据分析和机器学习中非常重要的一环。它有助于提高分析效率,为机器学习模型提供可靠的数据基础。它可以帮助人们更直观地理解数据,更好地理解数据的趋势和变化,发现潜在的联系,从而帮助人们更好地构建机器学习模型,提高模型的准确性。此外,数据可视化可以帮助人们更好地发现数据中的噪声和异常。通过可视化,可以更容易地发现噪声数据和异常情况,从而减少机器学习模型的误差。常用的Python数据可视化工具包括Matplotlib、Seaborn、Pyecharts等。

Matplotlib介绍

Matplotlib是一个Python 2D绘图库,用于绘制各种类型的图形,包括折线图、柱状图、饼图、散点图等。可以自定义图形的样式和属性,可以添加标签、标题、网格等元素,可以设置图形的大小、分辨率、颜色等属性。Matplotlib采用三层结构来组织图形:

1)容器层。容器层是指在Matplotlib图形中用于组织和管理图形元素的结构,通常包括画板(Canvas)、画布(Figure)、坐标系(Axes)等几个部分。画板是Matplotlib的图形容器,用于显示和交互Matplotlib图形,例如缩放、平移、选择、保存等。画布是Matplotlib中最顶层容器,用于组织所有的坐标系、图例(Legend)、标题(Title)等元素,是整个图形的最外层容器。坐标系是位于画布内部的容器,可以理解为一个具体的子图,用于组织所有的图形元素,例如线条、标记、图例等。

2)辅助显示层。辅助显示层是坐标系内除了根据数据绘制的图像以外的内容,用于在Matplotlib图形中添加额外的信息和标注,以提高图形的可读性和表现力。主要包括外观(Facecolor)、边框线(Spines)、坐标轴(Axis)、坐标轴名称(Axis Label)、坐标轴刻度(Tick)、坐标轴刻度标签(Tick Label)、网格线(Grid)、图例、标题等内容。

3)图像层。图像层指坐标系内通过plot()、scatter()、bar()、histogram()、pie()等函数根据数据绘制出的图像。
要在项目中使用Matplotlib,需要在Python环境中安装Matplotlib,命令如下:

$ pip install matplotlib

在使用时需要在Python脚本中导入matplotlib,代码如下:

import matplotlib.pyplot as plt
绘制折线图

折线图是Matplotlib中最基本的图形之一,Matplotlib提供了plot()方法用来绘制折线图,plot()方法的主要参数有:

  • x, y,x轴和y轴的值,可以是列表、数组、Series等类型的数据,如果只提供一个参数,则默认为y轴的值,x轴的值为数据索引或序列号。
  • inestyle,指定线条的样式,例如solid(实线)、dashed(虚线)、dashdot(点线)等。
  • linewidth,指定线条的宽度,数值类型,单位是像素。
  • color,指定线条的颜色。

在下面的案例中,定义了x轴和y轴的数据并绘制了折线图,代码如下:

# 构造数据
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [2, 3, 6, 4, 5, 8, 5, 9, 7, 10]
plt.plot(x, y)  # 绘制折线图
plt.show()  # 显示图形

执行代码,绘制的图形如图所示。

绘制柱状图

柱状图也是Matplotlib中最基本的图形之一,Matplotlib提供了bar()方法用来绘制柱状图,bar()方法的主要参数有:

  • x,柱状图的x坐标,可以是一个序列或数组,表示每个类别。
  • height,柱状图的高度,可以是一个序列或数组,表示每个柱子的高度。
  • width,柱状图的宽度,默认值为0.8。
  • bottom,柱状图底部的y坐标,可以是一个序列或数组,表示每个柱子底部的位置,用于绘制堆叠柱状图。
  • align,柱状图对齐方式,默认值为center,表示柱状图对齐于x坐标轴上的中心。
  • color,柱状图的颜色。

在下面的案例中,定义了5种类别及对应的值并绘制柱状图,代码如下:

# 构造数据
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 12, 34, 32]
plt.bar(x=categories, height=values)  # 绘制柱状图
plt.show()  # 显示图形

执行代码,绘制的图形如图所示。

绘制饼图

Matplotlib提供了pie()方法用来绘制饼图,pie()方法的主要参数有:

  • x,用于绘制饼图的数据,可以是一个列表、数组或者Series。
  • explode,指定各个部分的偏移量,用于突出某个部分,值为一个列表或数组。
  • labels,指定每个部分的标签,值为一个列表或数组。
  • colors,指定每个部分的颜色,值为一个列表或数组。
  • autopct,指定每个部分所占比例的显示方式,值为一个格式化字符串。
  • pctdistance,指定比例值和圆心的距离。
  • labeldistance,指定标签和圆心的距离。

在下面的案例中,定义了饼图的数据、颜色、显示方式等,并绘制出饼图,代码如下:

data = [20, 30, 40, 25, 15]  # 构造数据
labels = ['A', 'B', 'C', 'D', 'E']  # 定义标签
explode = [0, 0.2, 0, 0, 0]  # 定义突出显示的切片
colors = ['#ff9999', '#66bbff', '#99ff99', '#ffcc99', '#ffccff']  # 定义颜色
plt.pie(x=data, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%')  # 绘制饼图
plt.show()  # 显示图形

执行代码,绘制的图形如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

文章来源:https://blog.csdn.net/wux_labs/article/details/135407460
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。