前面我们才提到数据处理是一件非常重要的事情,数据处理的是否得当直接关系到最终的成果,所以针对数据要做缺失值处理、离群点处理、重复值处理、噪声处理、规范化处理、离散化处理、稀疏化处理等处理,这些处理操作的基础都是建立在数学的基础上,利用数学将数据质量提高,所以今天我们要借助 NumPy 这个库。
NumPy (?Numerical Python?) 是一个开源 Python 库,是 Python 中科学计算的基础包,主要用来计算、处理一维或多维数组。
在数组计算方面,这是 NumPy 的核心,所以它提供了涵盖数学方面的大量的函数;在底层方面,NumPy 主要用 C 语言编写,所以它能够高速的执行数值运算;在数据结构方面,NumPy 提供了多种数据结构,这些数据结构能够非常契合的应用在数组和矩阵的运算上。
因此,NumPy 几乎用于所有科学和工程领域,可以理解为,在 Python 的数据方向,NumPy 是基石。
此处引用了 NumPy 官方文档的一张图,告诉你 NumPy 可以用于哪些方面。
“学好数理化,走遍全天下”,大家可以看到 NumPy 给出的这些领域无不需要数学,所以 NumPy 在数学方面下足了功夫,我们可以利用 NumPy 更好的处理数据。
因本人是极简主义者,所以只使用 Python,不愿使用 Anaconda,此处只提供 Python 中使用 pip 安装 NumPy 的方式,如果想看更加详细的 NumPy 的安装方式,请参考官方文档:https://numpy.org/install/
Python安装 NumPy:在命令行中输入pip3 install NumPy
回车等待安装完成即可,记得一定要联网。