主题:【原创】学习之恍然大悟时刻 -- earthcolor
我的一点理解
在统计和机器学习中,涉及到三组相关的概念:数据,模型和变量。
1)数据
iid是讲数据之间的独立。更确切一点讲,是在给定模型后的数据独立。有了iid,数据分析变得相对简单。我们不必考虑数据点之间的关系,数据的统计特性(sufficient statistics)可以有效表示一个数据集。比如,在前面的例子中,在抽的一百个球中,有七十个是白球。“一百”和“七十”是这个数据集的统计特性,而我们不需要考虑这七十白球是如何在一百次抽样中排列的。
很多人感觉iid的要求太强。不同的学者提出不同的解决思路。有人提出了exchangeability,这个概念可以在分析中起到和iid相同的效果,但在哲学解释和因果关系的分析中,会有不同。
另外一种思路,是考虑数据之间的相关性。在这方面,更多的研究是马尔科夫模型及其扩展。马尔科夫模型的假设是,数据在时间序列是相关的。更确切地说,数据在将来时刻的取值,只与当前时刻的值相关,与过去时刻的值无关(这也是所谓的马尔科夫特性)。高阶马尔科夫模型,可以转化为一阶马尔科夫模型,所以一阶马尔科夫模型的研究最多。相应的扩展有状态空间模型(针对连续变量,控制应用中更常见),隐马尔科夫模型(加入了隐变量),马尔科夫决策过程(加入了决策变量),部分可观察马尔科夫决策过程(同时加入了隐变量和决策变量),等等。
2)模型
最大似然法是一种根据已知数据求模型中参数的方法。在最大似然法的应用中,没有考虑模型的先验概率。而贝叶斯方法,考虑了模型的先验概率。这样,在我们已有知识可以提供比较接近真实模型概率的先验概率、而数据量不是很大时,贝叶斯方法可以起到很好的效果。当数据量比较大时,模型先验概率的影响就会减弱。
根据领域知识,我们也可以固定模型中一些参数,这相当于改变了模型的先验概率 – 这些固定参数之外的模型的先验概率为零。
如果给定了模型的先验概率,我们也可以求单个数据的先验概率。在某些分析中,可能会用到。
3)变量
iid谈论的是数据之间的独立关系。相对应的,有一个变量之间的独立关系。根据不同的模型,变量之间的独立关系会有不同。在单纯贝叶斯模型中,给定分类变量,各个变量之间条件独立。这是一个比较简单的模型。复杂一点,是贝叶斯网络,各个变量会在某种条件下独立。
测试变量之间的相互独立性,是统计里的一个很大问题。在回归分析中,要不要引入一个自变量,通常是通过变量之间的相互独立性分析。这又是另一个问题了。
- 相关回复 上下关系8
🙂有可能会, 烟波钓徒 字98 2008-04-16 21:51:10
🙂【原创】学习之恍然大悟时刻:最大似然法 14 earthcolor 字4195 2008-04-03 10:33:13
🙂花,一点体会 2 荷子 字323 2008-04-04 01:24:11
🙂我的一点理解
🙂你的白黑球的例子实际上是大数定理,呵呵 大土人 字0 2008-04-04 00:54:19
🙂百度了一下 earthcolor 字566 2008-04-04 21:19:56
🙂【原创】学习之恍然大悟时刻:计算机编程及计算机 10 earthcolor 字2915 2008-03-31 09:01:15
🙂最初学的也是FORTRAN,编辑软件还是老师 荆棘探兴 字64 2008-04-02 02:03:55