图文详情
四分位数
来源:百度百科上传时间:2024-03-04
版权归原作者所有,如有侵权,请联系我们

概念

分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等。四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

示例

首先确定四分位数的位置:

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示项数。

在上例中(n+1)恰好是4的整数倍,但在很多 实际工作中不一定都是整数倍。这样四分位数的位置就带有小数,需要进一步研究。带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1。4

对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即

Q1的位置=1+(n-1)x 0.25

Q2的位置=1+(n-1)x 0.5

Q3的位置=1+(n-1)x 0.75

Excel 中有两个四分位数的函数。QUARTILE.EXC 和QUARTILE.INC

QUARTILE.EXC 基于 N+1 的方法,QUARTILE.INC基于N-1的方法。

引证1.minitab软件自带“公式与方法”(methods and formulas)内,关于第一四分位数的原文如下:

1st quartile (Q1)

Twenty-five percent of your sample observations are less than or equal to the value of the first quartile. Therefore, the first quartile is also referred to as the 25th percentile. Q1 is calculated as follows:

let

w = (N+1)/4

y = the truncated integer value of w

z = the fraction component of w that was truncated away

Q1 = x(y) + z(x(y+1) - x(y))

Note: when w is an integer, y = w, z = 0, and Q1 = x(y)

关于第三四分位数的原文如下:

3rd quartile (Q3)

Seventy-five percent of your sample observations are less than or equal to the value of the third quartile. Therefore, the third quartile is also referred to as the 75th percentile. Q3 is calculated as follows:

let

w = 3(N+1)/4

y = the truncated integer value of w

z = the fraction component of w that was truncated away

Q3 = x(y) + z(x(y+1) - x(y))

Note: when w is an integer, y = w, z = 0, and Q3 = x(y)

以上引文中,w代表分位数位置,y代表位置的整数部分,z代表位置的分数部分。

2. 论四分位数的计算 (湖南工学院工商管理系 祁德军 南华大学数理学院 陈明)

(原文截图)

实例1

数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

一共11项

Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9

Q1 = 15,

Q2 = 40,

Q3 = 43

实例2

数据总量: 7, 15, 36, 39, 40, 41

一共6项

数列项为偶数项时,四分位数Q2为该组数列的中数,

(n+1)/4= 7/4 =1.75,Q1在第一与第二个数字之间,

3(n+1)/4= 21/4 =5.25, Q3在第五与第六个数字之间,

Q1 = 0.75*15+0.25*7 = 13,

Q2 = (36+39)/2= 37.5,

Q3 = 0.25*41+0.75*40 = 40.25.

1、将数据从小到大排序,计为数组a(1 to n),n代表数据的长度

2、确定四分位数的位置:b= 1+(n-1) × 0.25= 2.25,b的整数部分计为c b的小数部分计为d

计算Q1:Q1=a(c)+[a(c+1)-a(c)]*d=a(2)+[a(3)-a(2)] *0.25 =15+(36-15)×(2.25-2)=20.25

3、计算如上 Q2与Q3的求法类似,四分位差=Q3-Q1

应用

不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。

四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。即:

相关算法

将n个数从小到大排列:

Q2为n个数组成的数列的中数(Median);

当n为奇数时,中数Q2将该数列分为数量相等的两组数,每组有 (n-1)/2 个数,Q1为第一组 (n-1)/2 个数的中数,Q3为为第二组(n-1)/2个数的中数;

当n为偶数时,中数Q2将该数列分为数量相等的两组数,每组有n/2数,Q1为第一组 n/2个数的中数,Q3为为第二组 n/2 个数的中数。