龙听期货论坛's Archiver

龙听 发表于 2018-1-29 14:55

自由度 (统计学)

[p=21, 2, left]自由度(degree of freedom, df)在数学中能够自由取值的变量个数,如有3个变量x、y、z,但x+y+z=18,因此其自由度等于2。在[url=http://baike.baidu.com/view/50313.htm]统计学[/url]中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。[/p][p=21, 2, left][url=http://baike.baidu.com/view/50313.htm]统计学[/url]上的自由度是指当以样本的统计量来估计总体的[url=http://baike.baidu.com/view/327406.htm]参数[/url]时,样本中独立或能自由变化的资料的个数,称为该统计量的自由度。 统计学上的自由度包括两方面的内容:[/p][p=21, 2, left]  首先,在估计总体的平均数时,由于样本中的 n 个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以其自由度为n。[/p][p=21, 2, left]  在估计总体的[url=http://baike.baidu.com/view/172036.htm]方差[/url]时,使用的是离差[url=http://baike.baidu.com/view/33276.htm]平方[/url]和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。[/p][p=21, 2, left]  例如,有一个有4个数据(n=4)的样本,其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则m≠5。因而这里的自由度υ=n-1=4-1=3。推而广之,任何统计量的自由度υ=n-限制条件的个数。[/p][p=21, 2, left]  其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。[/p][p=21, 2, left]  这个解释,如果把“样本”二字换成“总体”二字也说得过去。[/p][p=21, 2, left]  在一个包含n个个体的总体中,平均数为m。知道了n-1个个体时,剩下的一个个体不可以随意变化。为什么总体方差计算,是除以n而不是n-1呢?方差是实际值与[url=http://baike.baidu.com/view/476035.htm]期望值[/url]之差[url=http://baike.baidu.com/view/33276.htm]平方[/url]的期望值,所以知道总体个数n时方差应除以n,除以n-1时是方差的一个无偏估计。[/p][p=21, 2, left][url=http://zh.wikipedia.org/wiki/%E7%B5%B1%E8%A8%88%E5%AD%B8]統計學[/url]上的[b]自由度[/b](degree of freedom, df),是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度。[/p][p=21, 2, left]例如,在估计总体的平均数时,由于样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n。[/p][p=21, 2, left]在估计总体的方差时,使用的是离差平方和。只要n-1个数的离差平方和确定了,方差也就确定了;因为在均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这裡,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为n-1。[/p][p=21, 2, left]其次,统计模型的自由度等于可自由取值的自变量的个数。如在回归方程中,如果共有p个参数需要估计,则其中包括了p-1个自变量(与截距对应的自变量是常量1)。因此该回归方程的自由度为p-1。[/p][p=21, 2, left]一个例子:如果用刀剖柚子,在北极点沿经线方向割3刀,得6个角。这6个角可视为3对。6个角的平均角度一定是60度。其中半边3个角中,只会有2个可以自由选择,一旦2个数值确定第3个角也会唯一地确定。在总和已知的情况下,切分角的个数比能够自由切分的个数大1。[/p][p=21, 2, left] [/p][p=21, 2, left][url=http://zh.wikipedia.org/zh/%E8%87%AA%E7%94%B1%E5%BA%A6_(%E7%BB%9F%E8%AE%A1%E5%AD%A6]http://zh.wikipedia.org/zh/自由度_(统计学[/url])[/p][p=21, 2, left][url=http://baike.baidu.com/view/327514.htm]http://baike.baidu.com/view/327514.htm[/url][/p][p=21, 2, left] [/p][p=21, 2, left]学习教育统计中,对自由度的概念不甚了解,故求助于baidu。[/p][color=#323e32][font=simsun] [/font][/color]
[color=#323e32][font=simsun]       [url=http://dahema.tianya.cn/blogger/post_show.asp?BlogID=468742&PostID=6594917]http://dahema.tianya.cn/blogger/post_show.asp?BlogID=468742&PostID=6594917[/url][/font][/color]
[color=#323e32][font=simsun] [/font][/color]
[color=#323e32][font=simsun]       自由度,很多统计量的计算公式中都有自由度的概念,可为什么同样是计算标准差,总体标准差的自由度是n,而样本标准差的自由度就是n-1?为什么其它公式中的自由度还有n-2、n-3呢? 它到底是什么含意?
翻看了以前的教材以及到网上查阅了大量相关资料,原来,不仅仅是统计学里有自由度的概念呀!下面把有关自由度的问题点简要归纳一下。
理论力学:确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。
热力学中:分子运动自由度就是决定一个分子在空间的位置所需要的独立坐标数目。
统计学中:在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)
我们当然最关心的还是统计学里面的自由度的概念。这里自由度的概念是怎么来的呢?据说:
一般总体方差(sigma^2),其实它是衡量所有数据对于中心位置(总体平均)平均差异的概念,所以也称为离散程度,通常表示为sum(Xi-Xbar)^1/2/N ,(有多少个数据就除多少)而样本方差(S^2),则是利用样本数据所计算出来估计总体变异用的(样本统计量的基本目的:少量资料估计总体).一般习惯上,总体怎么算,样本就怎么算,可是在统计上估计量(或叫样本统计量)必须符合一个特性--无偏性,也就是估计量的数学期望值要等于被估计的总体参数=> E(S^2)=sigma^2(无偏估计)。很不幸的,样本变异数E(S^2)并不会等于sigma^2所以必须做修正,而修正后即为sum(Xi-Xbar)^2/(N-1).才会继续带出后来的自由度概念。(自由度是由修正样本统计量得来的吗?)
网上一些文献的说法也是林林总总。
金志成实验设计书中的定义:能独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制————要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。
n-1是通常的计算方法,更准确的讲应该是n-k,n表示“处理”的数量,k表示实际需要计算的参数的数量。如需要计算2个参数,则数据里只有n-2个数据可以自由变化。例如,一组数据,平均数一定,则这组数据有n-1个数据可以自由变化;如一组数据平均数一定,标准差也一定,则有n-2个数据可以自由变化。df=n-k的得出是需要大量的数理统计的证明的。太复杂的情况,我们就不讨论了。[/font][/color]
[color=#323e32][font=simsun] [/font][/color]
[color=#323e32][font=simsun]另 [url=http://www.cos.name/bbs/simple/index.php?t1907.html]http://www.cos.name/bbs/simple/index.php?t1907.html[/url][/font][/color]
[color=#323e32][font=simsun][font=宋体][size=3]对卡方分布,t分布而言,从其统计量的来源看,卡方分布自由度n理解为来自n个服从正态分布的样本,而且他们之间并没有什么约束关系,也就是说n个样本都是可以自由变化的。
而对于我们在统计检验中构造的那些统计量而言,也可以这样理解,一般自由度并不为n,是因为这n个样本之间有约束关系,约束方程的个数为a,则自由度为n-a,因为一般约束方程的个数等于未知参数的个数,也就是说自由度是n-未知参数的个数,但是这种解释在有些场合不容易理解,也没有说到本质上,严格的解释应该还是从统计量对应的二次型的秩的角度来理解。
参见南开大学王兆军 数理统计讲义 2006
或几篇论文:
1、刘丽君,数理统计中的“自由度”及教材中一处证明的订正,温州师范学院学报(自然科学版),vol24,5,2003。
2、张宏广,自由度的求法,承德民族师专学报,第26 卷第2 期,2006。
3、曲卫彬,浅谈“自由度”,高校教育。[/size][/font][/font][/color]

页: [1]