R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

小提琴换把的训练技巧
2017年9月1日
走进黄山 梦回徽州
2017年9月2日

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

本文希望教会大家运用R语言绘制箱线图小提琴图小提琴图能同时查看数据的分布描述性统计,是一种非常实用的可视化图形。

箱线图/盒须图

绘制连续型变量常用的五个描述性统计量,从下到上依次是:最小值,下四分位数(25%分位数),中位数(50%分位数),上四分位数(75%分位数),最大值

  • 箱线图能够显示出可能的离群点,即上下四分位数以外的点

  • 箱线图由boxplot(formula, data=dataframe)命令得到

    • formula表示一个公式,y~A,将为类别变量A的每个值并列地生成数值型变量y的箱线图

    • y~A*B,将为类别变量A和B所有水平的组合生成数值型变量y的箱线图

    • dataframe代表提供的数据

数据查看

利用自带的数据集mtcars,查看数据的头几行

head(mtcars)

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

数据集mtcars

简单箱线图

对mtcars的每加仑汽油行驶英里数mpg绘制箱线图

boxplot(mtcars$mpg)

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

简单箱线图

并列箱线图

对发动机的不同缸数cyl绘制并列箱线图

boxplot(mpg~cyl,data=mtcars,main="并列箱线图",xlab="发动机的缸数",ylab="每加仑汽油行驶英里数")

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

并列箱线图

从图中可以看出,不同组之间的油耗差距是非常大的。6缸车型的每加仑汽油行驶的英里数分布较其他两种车型均匀,与6缸和8缸车型相比,4缸车型的每加仑汽油行驶的英里数分布最分散且呈正偏,在8缸车型的分组还存在一个离群点

凹槽箱线图

  • notch=TRUE,得到带有凹槽的箱线图,在中位数处产生凹槽

  • varwidth=TRUE,使箱线图的宽度与它们对应的样本数量正比越宽代表样本数量越多

boxplot(mpg~cyl,data=mtcars,notch=TRUE,varwidth=TRUE,col="red",main="凹槽箱线图",xlab="发动机的缸数",ylab="每加仑汽油行驶英里数")

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

凹槽箱线图

交叉因子箱线图

创建变速箱am气缸数量cyl的交叉因子的箱线图

boxplot(mpg~am*cyl,data=mtcars,varwidth=TRUE,col=c("gold","darkgreen"),main="交叉因子箱线图",xlab="汽车类型",ylab="每加仑汽油行驶英里数")

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

交叉因子箱线图

  • 0.4 表示变速箱类型是0发动机缸数是4时,每加仑汽油行驶英里数的分布

  • 1.4 表示变速箱类型是1,发动机缸数是4时,每加仑汽油行驶英里数的分布

  • 其他类似

结果表明,油耗随着缸数的减少而下降,对于4缸和6缸车型标准变速箱(类型是1)的油耗更低,但是对于8缸车型两种变速箱的油耗似乎没有太大差别;从箱线图的宽度中也可以看出,样本中变速箱类型是0的8缸发动机汽车数量较多

小提琴图

小提琴图是箱线图核密度图的结合,在纵轴展示了数据分布的核密度估计曲线

  • 使用vioplot包中的 vioplot( )函数绘制

  • vioplot(x1,x2,names=,col= )

    • 其中x1,x2是要绘制的一个或者多个数值向量

    • names=” ” 是标签的名称

    • col=” “用于指定小提琴图的颜色

library(vioplot)#加载需要的包x1=mtcars$mpg[mtcars$cyl==4]x2=mtcars$mpg[mtcars$cyl==6]x3=mtcars$mpg[mtcars$cyl==8]vioplot(x1,x2,x3,names=c("4缸","6缸","8缸"),col="gold")title("每加仑汽油行驶英里数的小提琴图")

R语言数据可视化系列(4)箱线图和小提琴图(附详细代码)

小提琴图

  • 在小提琴图中,白点是中位数黑色盒子的范围上下四分位点细黑线表示的的范围是最大和最小值

  • 外部形状即为分布的核密度估计

发表评论

电子邮件地址不会被公开。 必填项已用*标注