本文希望教会大家运用R语言绘制箱线图和小提琴图。小提琴图能同时查看数据的分布和描述性统计,是一种非常实用的可视化图形。
绘制连续型变量常用的五个描述性统计量,从下到上依次是:最小值,下四分位数(25%分位数),中位数(50%分位数),上四分位数(75%分位数),最大值。
箱线图能够显示出可能的离群点,即上下四分位数以外的点
箱线图由boxplot(formula, data=dataframe)命令得到
formula表示一个公式,y~A,将为类别变量A的每个值并列地生成数值型变量y的箱线图
y~A*B,将为类别变量A和B所有水平的组合生成数值型变量y的箱线图
dataframe代表提供的数据
利用自带的数据集mtcars,查看数据的头几行
head(mtcars)
数据集mtcars
对mtcars的每加仑汽油行驶英里数mpg绘制箱线图
boxplot(mtcars$mpg)
简单箱线图
对发动机的不同缸数cyl绘制并列箱线图
boxplot(mpg~cyl,data=mtcars,main="并列箱线图",xlab="发动机的缸数",ylab="每加仑汽油行驶英里数")
并列箱线图
从图中可以看出,不同组之间的油耗差距是非常大的。6缸车型的每加仑汽油行驶的英里数分布较其他两种车型均匀,与6缸和8缸车型相比,4缸车型的每加仑汽油行驶的英里数分布最分散且呈正偏,在8缸车型的分组还存在一个离群点。
notch=TRUE,得到带有凹槽的箱线图,在中位数处产生凹槽
varwidth=TRUE,使箱线图的宽度与它们对应的样本数量成正比,越宽代表样本数量越多
boxplot(mpg~cyl,data=mtcars,notch=TRUE,varwidth=TRUE,col="red",main="凹槽箱线图",xlab="发动机的缸数",ylab="每加仑汽油行驶英里数")
凹槽箱线图
创建变速箱am和气缸数量cyl的交叉因子的箱线图
boxplot(mpg~am*cyl,data=mtcars,varwidth=TRUE,col=c("gold","darkgreen"),main="交叉因子箱线图",xlab="汽车类型",ylab="每加仑汽油行驶英里数")
交叉因子箱线图
0.4 表示变速箱类型是0,发动机缸数是4时,每加仑汽油行驶英里数的分布
1.4 表示变速箱类型是1,发动机缸数是4时,每加仑汽油行驶英里数的分布
其他类似
结果表明,油耗随着缸数的减少而下降,对于4缸和6缸车型,标准变速箱(类型是1)的油耗更低,但是对于8缸车型,两种变速箱的油耗似乎没有太大差别;从箱线图的宽度中也可以看出,样本中变速箱类型是0的8缸发动机汽车数量较多。
小提琴图是箱线图和核密度图的结合,在纵轴展示了数据分布的核密度估计曲线
使用vioplot包中的 vioplot( )函数绘制
vioplot(x1,x2,names=,col= )
其中x1,x2是要绘制的一个或者多个数值向量
names=” ” 是标签的名称
col=” “用于指定小提琴图的颜色
library(vioplot)#加载需要的包x1=mtcars$mpg[mtcars$cyl==4]x2=mtcars$mpg[mtcars$cyl==6]x3=mtcars$mpg[mtcars$cyl==8]vioplot(x1,x2,x3,names=c("4缸","6缸","8缸"),col="gold")title("每加仑汽油行驶英里数的小提琴图")
小提琴图
在小提琴图中,白点是中位数,黑色盒子的范围是上下四分位点,细黑线表示的须的范围是最大和最小值
外部形状即为分布的核密度估计