主题:【原创】似虎非虎 -- 淮夷
没有读过这本书,只是从一个经常做数据分析处理的人的角度看问题。比如说,你举的第一个例子,就是那个散点图,对于很多理工科的人来说,规律那是大大的有啊。举个最简单的例子,这个图可以看成是一个5 x 5矩阵,矩阵中的数值为每个网格中存在的点数,如下图所示:
8 5 4 6 9
6 5 2 3 6
4 7 5 4 3
1 8 5 1 6
1 3 3 1 3
计算一下这个网格的均值,为4.36,也就是说单个网格中平均有4.36个点。
既然是矩阵,那么对其做个奇异值分析看看,其奇异值为“23.28519 6.78553 3.35594 1.82084 0.42258”。嗯,这个矩阵不错,不是奇异矩阵,可以用来解矩阵方程,俺们喜欢!
咱们再直观的来看,如果我们对这个5 X 5 的数字矩阵进行平滑平均,即分别用1x1(实际就是矩阵本身), 2x2, 3x3, 4x4, 5x5(即计算单个网格中的平均点数)的移动窗走一遍,如下图所示:
这张图上,俺使用相同的色标,即深蓝色为1,深棕色为9,当用1x1网格,也就是单看矩阵本身时,怎一“乱”字了得;2X2平滑以后呢,可以看出蓝色区域主要集中在底部,尤其是右下端,这就告诉俺们如果你想去点少点的地方,去右下角找就行了;再用大点的窗口平滑,3x3和4x4都告诉我们类似的信息。举个例子,好比咱们去看山,离远点看,这是一座山(5x5网格得出均值为4.36);近点,山是连绵起伏的,有山峰,还有山谷;再近,再近,最跟前了,钻到树林里,迷路了,乱花渐欲迷人眼,你怎知身在此山中呢?
再换一个思路,比如说可以用上分形(Fractal)分析的概念,计算一下豪斯多夫维数(Hausdorff Dimesion),结果大约为1,这说明了从整体上来说,这些个散点的分布接近白噪声分布。
再换个思路,用varigram分析,那内容就更多了。
呵呵,最后再举一例,还可以用频率域分析,比如小波分析。
其实,一个图形只要能转化成数字,那么就能得出很多规律。所以,俺觉得这个例子举得并不恰当,不过作者可能是从科普的角度谈这个问题吧。
- 相关回复 上下关系8
🙂前一点不可能大于 xtqntd 字343 2011-08-31 03:29:50
🙂医疗统计数据之错 淮夷 字38 2011-08-31 01:54:54
🙂这个事情和统计无关,只不过是采集自己需要的条件而已。 猫元帅 字0 2011-08-31 17:09:11
🙂呵呵,提出异议
🙂举一反三地学习你的方法,再联想一番,真是受益匪浅,花谢。 小僧人 字56 2011-08-31 23:57:03
🙂呵呵 先生是有心人 淮夷 字288 2011-08-31 02:05:43