数据分析遵循如下主要过程
数据采集数据挖掘数据可视化
见? 机器学习的之数据学习算法
见? 机器学习的任务流程之流程详解
数据分析的每个过程均有 Python 库?持,可以通过 Python实现数据分析的全部技术栈
Requests 是一个 Python 的 HTTP 客户端库, 支持的 HTTP 特性:
Pandas(Python 数据分析)是数据科学生命周期中的必备工具,它是数据科学中最流行和使用最广泛的 Python 库之一。在 GitHub 上有大约 17,00 条评论和一个由 1,200 名贡献者组成的活跃社区,它被大量用于数据分析和数据清理。Pandas 提供快速、灵活的数据结构,旨在帮助用户轻松直观地处理结构化数据。
应用场景如下:
它是一个机器学习库,提供了几乎所有的机器学习算法,它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。
应用场景如下:
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间。BeautifulSoup以网络爬取和数据抓取而闻名。
用户可以在没有适当的 CSV 或 API 的情况下收集某些网站上可用的数据,BeautifulSoup 可以帮助他们抓取这些数据并将其排列成所需的格式。
Matplotlib 是 Python 中最受欢迎的数据可视化软件包之一,支持跨平台运行,它是 Python 常用的 2D 绘图库,同时它也提供了一部分 3D 绘图接口。Matplotlib 通常与 NumPy、Pandas 一起使用,是数据分析中不可或缺的重要工具之一,可视化效果绝佳,它还提供了一个面向对象的 API,可用于将这些绘图嵌入到应用程序中。
应用场景如下:
seaborn是python中的一个可视化库,是对matplotlib进行二次封装而成,既然是基于matplotlib,所以seaborn的很多图表接口和参数设置与其很是接近。相比matplotlib而言,个人认为seaborn的几个鲜明特点如下:
正是由于seaborn的这些特点,在进行EDA(Exploratory Data Analysis, 探索性数据分析)过程中,seaborn往往更为高效。然而也需指出,seaborn与matplotlib的关系是互为补充而非替代, 多数场合中seaborn是绘图首选,而在某些特定场景下则仍需用matplotlib进行更为细致的个性化定制。