主题:【原创】问个问题,统计中自由度为什么要减一? -- baiqi
自由度为什么要减一啊?
1.统计的自由度为什么要减一
可不可以科学地解释解释。
一个量除以自由度到底是什么含义,要消除什么,要统一什么,得到的量对应什么,是要为回答什么问题作准备。
2.我去查了chi-square table,网上各个table的内容都不一样(用google 图片搜索前面两个关键字),为什么会不一样的?
所以其中一个变量在其他变量被观察到以后就成为了一个常量。
大概有两种情况
1)计算某统计量时,样本中独立数据的个数即为某统计量的自由度。
如方差,有n个数据,只要n-1个离差平方和确定了,方差就确定了(平均值是限制条件)。自由度就是n-1。
2)使用某模型,能自由取值的自变量的个数就是自由度。
如回归模型,要估算n个参数,其中有n-1个能自由取值的自变量(因为截距自变量是常量),自由度就是n-1。
关于chi-square表,我看都是一样的。
一个最简单的例子
x为均值 x1为唯一的元素
(x1-x)^2=0呵呵 自由度是0 1-1=0
都是根据自由度(df)和尾概率(tail probability,有的表上用p-value表示,实际不太确切)决定chisquare-检验的关键值(critical value)。要学会读表。
自由度的概念和t-变量的定义里分母项有关。分母中有一个是误差项(error term)的方差(variance)的估计。如果这个方差的估计是用(其实是相当于)多少个独立标准状态变量平方的均值算出来的,则这个t-变量的自由度就是多少。线性回归计算中,自由度恰好是样本数减去模型中系统部分(systematic part)中的参数个数(=自由变量的个数+1,这里1是指那个常数项参数)。
王松桂的线性统计模型第36页可能会对你有帮助。那个是n-p的。是数学证明,不是直观上的理解。虎大的解释很直观,道行高啊
直观看起来除以n更合适,除以n-1,结果肯定与除以n是不同的,那么除以n-1更正确在哪?我硬是要除以n,然后把得出的结果称作是方差,会有什么后果?
除以自由度得出了什么东西?
我要是不除以自由度,而直接除以n(比如说计算方差时),具体来说会发生什么差错?
总体方差就是除以n,而样本方差(即一个统计量,用以估算总体方差)是除以n-1。当然,实际两者都是要除以自由度,但两种情况,其自由度是不同的。
计算样本方差,除以n-1是一种无偏估计,除以n是有偏估计。
我不是专业搞这个的,只知道这么多。
在回归参数的t检验中
我们假设b=0,然后通过t检验得出假设不成立。
于是回归模型的因变量与自变量之间存在线性关系。
我觉得b不等于0,与“回归模型的因变量与变量之间存在线性关系”好像并不能等价。
因为,我们首先是假设了该模型是线性回归模型,但是可能模型根本不是线性的,而是二次方的,比如说 y=bx^2+u
证明了b不等于0,也不能得出其是线性关系的。
不知我表达得明不明白?
是用F检验。
F检验是检测线性关系的显著性,而t检验是检测某系数的显著性。
F检验的假设同样是:b=0,然后通过否定这个假设而达到证明存在线性关系的目的。
然而b<>0,也不能说明它们就是线性关系,首先要否定它们不是二次方关系或其它非线性关系才对啊?
因为回归实际上是一个N个K元线性方程组。所以残差是N个随机变量受到K个约束条件。应该是N-K。
也可以考虑特殊情况假设N=K,回归就退化成线性方程组,有唯一解。自由度就是0.
当然懂点矩阵代数,一算就明白了,因为投影矩阵的秩是N-K。
二次方,平方根等仍旧是线性关系,用F检验可以检测出。
比如,x和y是存在y=a+bx^2的关系,那么F检验检测y=a+bx^2的p-value会非常小(比如<0.0001),而F检验检测y=a+bx的p-value会相对大(比如0.02)。
至于最后建立方程的时候,是y=a+bx还是y=a+bx^2,要通过其他一些手段和你的经验。
这一点我还真不知道,不知哪本书有提到,我参详参详,谢谢!