西西河

主题:【原创】数字左右社会科学 -- 同人于野

共:💬59 🌺171 新:
全看分页树展 · 主题 跟帖
家园 不錯,

統計方法越來越被廣泛的應用在科學研究中了。

例如,在所謂“后基因組”時代,為了研究DNA序列上的變異(例如SNP)與疾病之間的關系,統計遺傳學方法已經成為最主要的方法。不過,這里有兩個問題需要大家注意:

一是如何分劃統計樣本,同樣都是人,多多少少有些病癥出現,那么如何把這個總的population按照phenotype合理地分為兩類?如果病人不幸罹患多種病癥,如何合理采集樣本來使這些不確定因素的干擾達到最小?這在現實的操作中是一個很大的問題。因此,在具體的研究中,為了從權,往往通過調查一個家系(擁有相似的遺傳背景)來確定DNA上的與疾病相關(associate)的變異。但是,合適的遺傳病家系并不好找,因此是寶貴的資源。這也是為什么這樣的研究工作一般總是可以發表在頂尖雜志上的原因。另一方面,家系的population比較小,統計上的variation比較大,可能會有不確定的結果。一些非遺傳而又病癥明顯的疾病的采樣就好辦一些,例如老年癡呆或者帕金森氏綜合征,樣本數量可以達到幾千,那么結果就比較有說服力。

另一個問題,一般我們找到一個變異說它和某個疾病有關聯,其實并非說有了這個變異就一定有病或注定發病。其實差距還是蠻遠的。一個變異與疾病有關的程度可以采用一個概率來描述。在老年癡呆的研究中,最最顯著的基因APOE的變異其實也只有4~20%的概率有病癥。這說明,對統計出來的結果的解釋,一定要非常小心謹慎,否則就會得出“太超過”的結論了

說這兩點,主要還是希望使大家了解統計推斷的過程,以及在實際操作過程中可能會出現的問題。總之,就是要要慎重。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河