阅读 151

(Python 画图)Seaborn画图常用函数与技巧

关键字:相关性分析、调整字体、Seaborn、Python
涉及Seaborn常用的画图函数,以及常用的调整字体,设置坐标轴标签、设置刻度、保存图片时不留白边等技巧。示例使用了纽约市出租车数据,要注意我对数据进行了预处理。
(New York City. tlc-trip-record-data. https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page
在使用这些代码时要调整输入的数据,根据需要改变坐标轴标签和字体大小。

1. 单变量统计分析

1.1 概率密度图:连续型变量的分布

适用于连续型变量:

ax = sns.distplot(dataframe_name[col_name])
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 200000, 400000])  # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)
Figure 1. 概率密度图.png

1.2 柱状图:离散型变量的分布

柱状图;这个函数最好对离散型变量使用,对于dataframe中的一列数据,它会统计不同种类的数据项出现的次数,然后画柱状图。

ax = sns.countplot(x=col_name, data=dataframe_name)
# 设置刻度字体, 坐标标签字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel("LabelName", fontsize=20)
ax.set_ylabel("LabelName", fontsize=20)
Figure 2. 柱状图.png

2 多变量相关性分析

2.1 散点图

选dataframe中的两列画散点

ax = sns.scatterplot(x=x_name, y=y_name, data=dataframe_name)
# 设置刻度,坐标轴大小,名字。
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 3. 散点图.png

2.2 联合分布图/核密度图:连续型变量之间的相关性

选dataframe中的两列画联合分布,易于发现两个变量间的关系。这里为了让图片显示更清晰,我用了疫情数据和百度迁徙数据。然后核密度图的数据是使用了纽约出租车的数据,核密度图可用于聚类分析。

# kind='reg' 会画出那条拟合的直线和置信区间
ax = sns.jointplot(x=x_name, y=y_name, data=dataframe_name, kind='reg', height=5)
# 核密度图:(实际画图的时候一个一个画)
# ax = sns.kdeplot(dataframe_name[x_name], dataframe_name[y_name], shade=True, shade_lowest=False, cbar=True, color='r')
# 设置刻度字体大小,注意这里对坐标轴的设置与前面不同,核密度图和联合分布图要用set_axis_labels
ax.set_axis_labels(x_label, y_label, fontsize=20)  # label of the coordinate axis
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 4. 联合分布图.png

Figure 5. 核密度图.png

2.3 小提琴图与箱线图:连续型变量与离散型变量之间的相关性

注意它在设置刻度的时候是和前面的散点图,柱状图,概率密度图等一致的。
这里的三行代码分别画小提琴图,箱线图,分布密度散点图,画图时,我在x轴放的是离散型变量。
另外有许多参数可调,我在这里举了箱线图中hue='taxi_type'的例子

# ax = sns.violinplot(x=x_name, y=y_name, data=dataframe_name, inner=None, whis=np.inf)
ax = sns.boxplot(x=x_name, y=y_name, data=dataframe_name, hue='taxi_type')
# ax = sns.swarmplot(x=x_name, y=y_name, data=dataframe_name, color="c")
# 设置刻度字体大小
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 6. 小提琴图,箱线图和分布密度散点图.png

2.4 相关性的计算

这里相关性计算使用scipy中的函数,计算的结果包括斜率,截距,R-value,P-value,标准差。
选取的y1, y2两列数据应具有同样长度。

import scipy
slope, intercept, r_value, p_value, std_err = scipy.stats.linregress(y1, y2)

3 类别与聚类分析

3.1 点图:直接地看出两种类别的区别

简单地理解,点图可以画出多个类别地均值和方差,可以直观地看出不同类别地区别。
如图7,可以看出黄色出租车的收入均值更小,方差更小。

sample_taxi = all_taxi.sample(n=10000, random_state=1)  # 画图前先采样了,不然数据太多画的慢
ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi)
# ax = sns.pointplot(x="taxi_type", y="total_amount", data=sample_taxi, estimator=np.median,
#                    dodge=True, palette="Set2", markers=["o", "x"], linestyles=["-", "--"])
# 这里设置坐标轴的方法和上面一致
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
Figure 7. 点图.png

3.2 聚类

注意我选取了原始数据中的两列进行聚类。
可以调整sns.clustermap()中的method参数以改变聚类的方式:默认为为average算法,可选’single’,’complete’ ,’weighted’,’centroid’,’median’。

lo_number = lo_number[['engaged number', 'disengaged number']]
g = sns.clustermap(lo_number, fmt="d", cmap='YlGnBu', figsize=(6, 9))
ax = g.ax_heatmap
label_y = ax.get_yticklabels()
plt.setp(label_y, rotation=360, horizontalalignment='left')
Figure 8. 聚类.png

4 画图技巧总结

4.1 调整坐标轴标签及大小

这里分成两部分,一是坐标轴的刻度,二是坐标轴的标签。
调整坐标轴刻度大小,对于所有的图都可以使用如下代码(因为是直接调整plt的):

plt.xticks(fontsize=20)
plt.yticks(fontsize=20)

调整坐标轴标签和字体大小,联合分布图和核密度图需要这样:

ax.set_axis_labels(x_label, y_label, fontsize=20)  # label of the coordinate axis

其他的如概率密度图,柱状图,散点图,小提琴图,箱线图,点图等,调整坐标轴标签时可以这样:

# ax.set_xticks([0, 200000, 400000])  # 设置x轴刻度
# ax.set_xticks([0, 1, 2, 3, 4, 5]) # 设置x轴刻度
ax.set_xlabel(x_label, fontsize=20)
ax.set_ylabel(y_label, fontsize=20)

或者你可以全局地对seaborn字体进行调整:

sns.set(style="darkgrid")  # 这是seaborn默认的风格
sns.set(font_scale=1.5)

4.2 保存图片时常用技巧

保存图片时,保存为svg格式(可以任意放缩)。且不保留图片四周的白边:

plt.savefig($FigName + '.svg', format='svg', bbox_inches='tight')

作者:你听听我的

原文链接:https://www.jianshu.com/p/cce0dc626fbe

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐