加入收藏 | 设为首页 | 会员中心 | 我要投稿 济南站长网 (https://www.0531zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

EDA中常用的九个可视化图表介绍和代码示例

发布时间:2024-01-06 18:16:01 所属栏目:大数据 来源:DaWei
导读:   探索性数据分析(EDA)是数据科学家用来分析和调查数据集并总结其主要特征的一种方法,通常采用数据可视化技术。我们可以说EDA是通过创建可视化和摘要来调查和理解数据集的过程。  探索

  探索性数据分析(EDA)是数据科学家用来分析和调查数据集并总结其主要特征的一种方法,通常采用数据可视化技术。我们可以说EDA是通过创建可视化和摘要来调查和理解数据集的过程。

  探索性数据分析(EDA)是数据科学家用来分析和调查数据集并总结其主要特征的一种方法,通常采用数据可视化技术。我们可以说EDA是通过创建可视化和摘要来调查和理解数据集的过程。EDA是我们询问数据问题的一种方式,可以找出关于数据的所有信息,并理解它为什么是这样的(即识别趋势、模式、异常等)。

  在这篇文章中我们介绍EDA中常用的9个图表,并且针对每个图表给出代码示例。

  1、条形图/计数图

  显示分类变量的分布。可视化数据集中每个类别的频率或计数。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.countplot(x='day', data=data)

  plt.title('Count of Tips by Day')

  plt.show()

  2、箱线图

  显示数据中的平均值、中位数、分位数和离群值。比较多个变量的分布。可以识别扩散的数值变量,检测数据集中潜在的异常值。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.boxplot(x='day', y='total_bill', data=data)

  plt.title('Box Plot of Total Bill by Day')

  plt.show()

  3、密度图

  作为数据科学家,建议使用密度图而不是直方图,因为我们猜测最佳的装箱数量是有问题的。

  密度图可以可视化连续变量的分布。识别数据中的峰值、低谷和总体模式。了解分布的形状并比较多个变量的分布。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.kdeplot(data['total_bill'], shade=True)

  plt.title('Density Plot of Total Bill')

  plt.show()

  4、散点图

  探索两个连续变量之间的关系。识别数据中的模式、相关性或集群。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.scatterplot(x='total_bill', y='tip', data=data)

  plt.title('Scatter Plot of Total Bill vs. Tip')

  plt.show()

  5、线型图

  在时间序列中显示趋势或模式。表示连续区间内两个连续变量之间的关系,还可以比较连续范围内变量的变化。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.lineplot(x='total_bill', y='tip', data=data)

  plt.title('Line Plot of Tip Over Total Bill')

  plt.show()

  6、热图

  显示数值变量的相关矩阵。识别大型数据集中的模式和关系。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  correlation_matrix = data.corr()

  sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

  plt.title('Correlation Heatmap')

  plt.show()

  结合了箱形图和核密度图的特点,可以可视化一个数值变量在不同类别中的分布。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.violinplot(x='day', y='total_bill', data=data)

  plt.title('Violin Plot of Total Bill by Day')

  plt.show()

  为了进行对比,可以在同一图中并排比较多个子图。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  plt.figure(figsize=(12, 8))

  plt.subplot(2, 2, 1)

  sns.scatterplot(x='total_bill', y='tip', data=data)

  plt.title('Scatter Plot of Total Bill vs Tip')

  plt.subplot(2, 2, 2)

  sns.boxplot(x='day', y='total_bill', data=data)

  plt.title('Box Plot of Total Bill by Day')

  plt.subplot(2, 2, 3)

  sns.barplot(x='day', y='total_bill', data=data)

  plt.title('Bar Plot of Total Bill by Day')

  plt.subplot(2, 2, 4)

  sns.histplot(data['total_bill'], kde=True)

  plt.title('Histogram of Total Bill')

  plt.tight_layout()

  plt.show()

  9、关系图

  Pairplot在中文中没有特定的翻译,我这里把它称作关系图,因为它是用于绘制变量之间的关系,通过对多个变量进行可视化来探索它们之间的相关性和趋势。

  复制

  import seaborn as sns

  import matplotlib.pyplot as plt

  data = sns.load_dataset('tips')

  sns.pairplot(data, hue='day')

  plt.suptitle('Pairplot of Numerical Variables by Day', y=1.02)

  plt.show()

  总结

  以上就是在EDA中常用的图表,可以看到seaborn是可以非常好用的工具,它基于matplotlib但是更加美观,并且需要编写的代码更少,所以在EDA需要简单的出图的时候可以优先使用它。

(编辑:济南站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章