《Python数据分析技术栈》第08章数据分析案例研究 01 方法 Methodology

发布时间:2024年01月23日

01 方法 Methodology

《Python数据分析技术栈》第08章数据分析案例研究 01 方法 Methodology

In the last chapter, we looked at the various Python-based visualization libraries and how the functions from these libraries can be used to plot different graphs. Now, we aim to understand the practical applications of the concepts we have discussed so far with the help of case studies. We examine the following three datasets:

  • Analysis of unstructured data: Using data from a web page providinginformation about the top 50 highest-grossing movies in Franceduring the year 2018
  • Air quality analysis: Data from an air quality monitoring station atNew Delhi (India), providing the daily levels for four pollutants –sulfur dioxide (SO2), oxides of nitrogen as nitrogen dioxide (NO2),ozone, and fine particulate matter (PM2.5)
  • COVID-19 trend analysis: Dataset capturing the number of cases anddeaths for various countries across the world daily for the first sixmonths in the year 2020

在上一章中,我们介绍了各种基于 Python 的可视化库,以及如何使用这些库中的函数绘制不同的图形。现在,我们将通过案例研究来了解迄今为止所讨论概念的实际应用。我们将研究以下三个数据集:

  • 非结构化数据分析: 使用提供 2018 年法国票房最高的 50 部电影相关信息的网页数据
  • 空气质量分析: 来自新德里(印度)空气质量监测站的数据,提供了四种污染物–二氧化硫(SO2)、二氧化氮(NO2)、臭氧和细颗粒物(PM2.5)的每日浓度水平
  • COVID-19 趋势分析: 2020 年前 6 个月全球各国每日病例数和死亡数数据集

技术要求 Technical requirements

For the first case study, you need to refer to the following Wikipedia URL (data is taken directly from the web page):https://en.wikipedia.org/wiki/List_of_2018_box_office_number-one_films_in_France

第一个案例研究需要参考以下维基百科网址(数据直接取自网页):https://en.wikipedia.org/wiki/List_of_2018_box_office_number-one_films_in_France

For the second case study, download a CSV file from the following link:https://github.com/DataRepo2019/Data-files/blob/master/NSIT%20Dwarka.csv

关于第二个案例研究,请从以下链接下载 CSV 文件:https://github.com/DataRepo2019/Data-files/blob/master/NSIT%20Dwarka.csv

For the third case study, download an Excel file from the following link: https:// github.com/DataRepo2019/Data-files/blob/master/COVID-19-geographicdisbtribution-worldwide-2020-06-29.xlsx

关于第三个案例研究,请从以下链接下载 Excel 文件:https:// github.com/DataRepo2019/Data-files/blob/master/COVID-19-geographicdisbtribution-worldwide-2020-06-29.xlsx

Libraries

In addition to the modules and libraries we used in the previous chapters (including Pandas, NumPy, Matplotlib, and Seaborn), we use the requests module in this chapter to make HTTP requests to websites.

除了我们在前几章中使用过的模块和库(包括 Pandas、NumPy、Matplotlib 和 Seaborn),我们还在本章中使用 requests 模块向网站发出 HTTP 请求。

To use the functions contained in this module, import this module in your Jupyter notebook using the following line:

要使用本模块中包含的函数,请在 Jupyter 笔记本中使用以下一行导入本模块:

import requests

If the requests modules is not installed, you can install it using the following command on the Anaconda Prompt.

如果未安装请求模块,可在 Anaconda 提示符下使用以下命令进行安装。

pip install requests

Methodology

We will be using the following methodology for each of the case studies:

我们将对每个案例研究采用以下方法:

Open a new Jupyter notebook, and perform the following steps:

  • Import the libraries and data necessary for your analysis
  • Read the dataset and examine the first five rows (using the headmethod)
  • Get information about the data type of each column and thenumber of non-null values in each column (using the infomethod) and the dimensions of the dataset (using the shapeattribute)
  • Get summary statistics for each column (using the describemethod) and obtain the values of the count, min, max, standarddeviation, and percentiles

打开一个新的 Jupyter 笔记本,然后执行以下步骤:

  • 导入分析所需的库和数据
  • 读取数据集并检查前五行(使用 head 方法)
  • 获取每列的数据类型、每列中非空值的数量(使用 infomethod 方法)以及数据集的维度(使用 shapeattribute 方法)等信息
  • 获取每列的汇总统计信息(使用 describemethod),并获取计数、最小值、最大值、标准偏差和百分位数的值

Data wrangling

  • Check if the data types of the columns are correctly identified(using the info or dtype method). If not, change the data types,using the astype method
  • Rename the columns if necessary, using the rename method
  • Drop any unnecessary or redundant columns or rows, using thedrop method
  • Make the data tidy, if needed, by restructuring it using the melt orstack method
  • Remove any extraneous data (blank values, special characters,etc.) that does not add any value, using the replace method
  • Check for the presence of null values, using the isna method, anddrop or fill the null values using the dropna or fillna method
  • Add a column if it adds value to your analysis
  • Aggregate the data if the data is in a disaggregated format, usingthe groupby method

数据处理

  • 检查列的数据类型是否正确(使用 info 或 dtype 方法)。如果没有,使用 astype 方法更改数据类型
  • 如有必要,使用 rename 方法重命名列
  • 使用drop 方法删除任何不必要或多余的列或行
  • 必要时,使用 melt 或 stack 方法重组数据,使其整洁
  • 使用替换法删除不增加任何价值的多余数据(空白值、特殊字符等
  • 使用 isna 方法检查是否存在空值,并使用 dropna 或 fillna 方法删除或填充空值
  • 如果列能为分析增加价值,则添加该列
  • 如果数据是分类格式,使用 groupby 方法汇总数据

Visualize the data using univariate, bivariate, and multivariate plots

使用单变量、双变量和多变量图直观显示数据

Summarize your insights, including observations andrecommendations, based on your analysis

根据您的分析,总结您的见解,包括意见和建议

文章来源:https://blog.csdn.net/qq_37703224/article/details/135762746
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。