pandas_profiling(version:3.0.0版本）一行代码生成数据分析报告

Posted on 2024年1月12日

wpandas_profiling的作用：类似于pandas的describe（）和info()函数，用来查看数据的整体情况，比如平均值、标准差之类，即探索性数据分析-EDA，可以快速的浏览数据的大致情况。

1.安装：我用的是jupyter_notebook，直接输入下面一行代码即可：（可能会提示部分库版本不够，需要升级，根据提示升级即可，升级方法也很简单，直接pip install+需要升级的包名）

pip install pandas-profiling

2.数据集：安装完后就可以使用了，用的也是大家平时比较常用的kaggle的数据集：泰坦尼克号数据；可点击下载，下文演示用的主要为train.csv里面的数据

gender_submission.csv

3.3K

·

百度网盘

test.csv

28.6K

·

百度网盘

train.csv

61.2K

·

百度网盘

3.进入正题，几行代码快速生成：

import pandas as pd 
from pandas_profiling import ProfileReport

#导入数据
df=pd.read_csv(r"C:/Users/86134/Desktop/python/titanic_泰坦尼克数据集/train.csv")
profile =ProfileReport(df,title ="titanic Dataset ",explorative=True) #title可以自己取
profile.to_file("report.html") #file的名字也是可以自己取的，这个分析报告导出是html格式的

4.看看3.0版本的pandas_profiling有哪些内容吧：

左上角是自己命名的文件名字：titanic Dataset,右上角分别是这个数据分析的六大部分：overview、variables、interactions、Correlations、Mising values、Sample.

(1)Overview：

这部分有三个部分内容、overview、warmings、Reproduction.

overview：首先overview是这个数据集的概述，包含着变量的个数、样本数量、缺失总量、缺失比例，重复的列，重复列比例，文件的大小，以及变量的类型。

Warnings: 汇总了变量之间的一些相关信息，包括High cardinality（不一样的值较多）、high correlation(高相关性）、Missing（缺失值）、uniform(分布均匀）、unique(唯一性）、zeros(有0值）

reproduction:该部分回顾的是生成报告的一些参数，包括开始和结束时间、生成报告时长，包的版本号、下载配置等信息。

（2）Variables

该部分主要对各变量的情况进行分析：

每一项会标注该变量的类型，以及给出相应的提示，比如说存在缺失值，和某个值存在高相关性等等。同时展示概述内容，包括该变量有多少不同的取值，每个取值的占比，缺失值/缺失值占比，右边会给出每个取值的个数。若对某个变量感兴趣，可点击右下角的toggle details，切换成详细模式：

以survived字段举例，详细模式中包含overview、categories、words、characters四个页面，首先overview中包括length、Characters and Unicode、unique、sample四部分信息：

length描述了name这个字段的长度信息：最长度、中位数、平均值及最小值

Characters and Unicode：字符总数、字符类型，种类、字体、分区

unique：唯一值个数/比例

sample：给出了前五个例子，类似于head（）的用法；

categories：

发表评论取消回复

要发表评论，您必须先登录。