数据分析帮助我们识别数据集中的模式,分析不同变量之间的相关性和关联。借助不同的可视化,我们可以确定数据是否试图讲述任何特定的故事。有不同类型的图表和绘图可用于分析和可视化数据。
创建不同类型的图和图表会消耗大量时间,因为我们需要根据列的数据类型确定有用的图形类型,并且我们还需要编写大量代码来创建这些图形。但是,如果我告诉您可以在一行代码中完成所有这些操作呢?
Dataprep 是一个开源 Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。
在本文中,我们将探讨 Dataprep 提供的一些功能。
让我们开始吧…
安装所需的库
我们将首先使用 pip 安装 Dataprep 库。 下面给出的命令将执行此操作。
pip install -U dataprep
导入所需的库
在这一步中,我们将导入加载数据集和执行 EDA 操作所需的库。
from dataprep.datasets import load_dataset
from dataprep.eda import create_report
from dataprep.eda import plot, plot_correlation, plot_missing
加载数据集
对于本文,我们将使用Dataprep中预定义的著名的收入数据集。
df = load_dataset("adult")
创建EDA报告
现在我们将创建一个EDA报告,其中包含所有的可视化,相关性,缺失的图表等,这有助于分析数据集。
create_report(df).show_browser()
这是报告的首页,在这里你可以看到我们正在使用的数据的概述。同样,让我们看看如何创造不同的章节。
创建图表
在这个步骤中,我们将创建由Dataprep提供的不同的图。
1、Plot
该图表创建了所有数据变量的可视化。
plot(df)
2、plot_correlation
这张图创建了不同类型的相关图,显示了不同数据变量之间的相关性。
plot_correlation(df)
3、plot_missing
这是帮助创建显示缺失数据的表格和图表的最后一个图。
plot_missing(df)
在这里,我们探索了由Dataprep创建的报告,它对EDA非常有帮助,还创建了不同的图来理解数据和分析它的属性。
我们可以将这几个方法使用在不同的数据集上创建EDA报告和图来执行数据分析。
作者:Himanshu Sharma
from https://zhuanlan.zhihu.com/p/397748230