主题:漫谈体检策略-统计相关的故事(一) -- xtqntd
这些天颇与某些河友争论,彼此不相让。不如就此发散开去,谈一下体检策略,兼述一下患者和临床医生中常见的思维误区。
基本分歧在于是否采用某些诊断方法,显然有人激进,有人保守。有人觉得最贵的就最好,自然有也人觉得最贵的未必最好。
不同的人知识背景不同、需求不同、角色也不同,即使同一个检查的同样的结果,对于不同人来说解读也完全不一样。那么应该怎么样选择适合自己的体检策略呢?那么先从一个看似不相关的统计学概念说起
Frequentist or Baysian ?
稍有理科背景的河友对这两个词不会陌生。
假设大家看到这样的论述:A疾病有x%的病例会出现P症状,一般这样的论述会出现在疾病个论里,比如内科学啊,外科学啊等等。
与之相反,我们也经常可以看到这样的论述:Q症状/R检查结果阳性提示有可能存在B疾病/B疾病的可能性是y%,一般这样的论述会出现在诊断学里。
相信河友们一眼就能看出这两种论述是不一样的,并且假设其他条件都一致,相互之间是可以通过贝耶斯定理互相转换的。正如前面所列的例子,医学相关思维中也一直存在着这两种思维的不停转换。稍有不慎,便容易混淆。医生尚如此,求医心切的病人就更难以区分得清楚了。。
举例而言(某标准化考题原题翻译,中美通用),某人在体检中检查出某个胃癌相关的指标是阳性,他正好在医院里有两位医生朋友,于是他就拿着结果去请教。第一位朋友是检验科的医师,他说这个指标每天都有很多人检查出来是阳性,但是只有1%的人得了癌症,不用太担心了。另一位朋友是肿瘤科医生,他说在胃癌病人里有10%的病人这个指标阳性,并且进展很快,容易扩散,所以建议要尽早做胃镜复查。
请大家看看,哪位医生说得对呢?
另外,请大家想想,这位去体检的哥们真正想知道的又是什么呢?
土鳖抗铁牛
本帖一共被 1 帖 引用 (帖内工具实现)
肿瘤科医生的叙述是正确的。他说了一个比例,也是一个条件概率:在他看过的癌症病人中,某某指标阳性的比例(如果不过于纠结于严格的定义,可以粗略地等同于概率,此处就这么粗略一下吧。)
这个条件概率来自于这位医生经验的积累,不同的医生因为看到的病人不一样,积累的经验也不一样。甚至有可能在同一家医院里,消化内科的医生和肿瘤科医生的经验也不一样。也就是说,这个比例取决于这位医生看到的/下结论的人群。
检验科医生说的呢,则是一个叫做“阳性预测值”的东西。阳性预测值指的是在所有检测出阳性的对象里,真正是阳性的比例。这个指标与两样东西密切相关:
1。检验方法的好坏
2。疾病在人群中的患病率
所以这道考题的答案是:两位医生给出的意见都是对的,并且看上去很像。那么我们能认为两位医生说的是同一件事情的两面么?
土鳖抗铁牛
除非还有其他条件
套用两句:
送花有7%的结果可能会得宝
得宝提示有可能已经连送7朵空花的可能性是50%
鲜花已经成功送出。
此次送花为【有效送花赞扬,涨乐善、声望】
如果答两个都对(10分里可以得2分,如果任选其一可以得1分)。剩下的8分要求解释其成立的条件,并叙述结论适用的范围。
于是事情要从头开始慢慢讲起了
所有检查方法都得有个“好坏”的评价。评价自然需要设定标准。一般情况下,病理学检查是“金指标”。但有一个经典的玩笑:病理医生是对疾病了解得最深最透彻的,只是太晚了--总不能等尸检结果之后再做诊断治疗吧跑提了,撤回来。
设定了金指标后,每一种诊断技术都要对一系列标准对象进行检测,并以金指标判断这个检测是否正确。衡量这种技术的指标有两个:
第一个叫做敏感度。
所谓敏感度,就是在确定是病人(令其为“阳性”)的情况下正确地检测出阳性的概率。
相对应的另一个指标是特异度,就是确定不是病人/确定阴性的情况下,正确地检测出阴性的概率。就是说一个人没病,做了一个检查,查出来他没病的概率。
世上没有完美的事情,所以一般来说敏感度和特异度都不会是100%。
两个指标的下限是都50%(如果低于50%,直接把阴性阳性倒一下就可以了),比如用“眼光注视法”判断一个人是否感染了HIV,这种方法的敏感度和特异度应该都接近50%--也就是胡扯。
显然,我们总希望两个指标越高越好,但是世事非我等能所设计,往往两者只能顾及一头。于是我们可以看到林林总总的方法,有的敏感度高,有的特异度高。如果有人跑来跟你说两个都高,而你又不懂其内部的机制的化,最好还是留个心眼,就好像面对一个投行的跑来跟你说这个投资回报极高同时风险极低一样--不是说没有这样的事情,但是如此神奇的东西迄今实在不太多,哪怕在飞速发展的医疗技术领域。
如果知道了某个方法的敏感度和特异度,我们判断出“好坏”了,这个方法就一定适用于你么?
土鳖抗铁牛
某个方法适合你么?
或者换个说法,用三段论把这个问题分解一下就是:某个检测方法是不是适合用于某个人群?(大前提)而“我”是不是属于这个人群?(小前提)于是我们可以看到,这两个问题的答案排列组合是:
是-是 适合
是-否 不适合
否-是 不适合
否-否 不知道
显然只有第一种情况下我才会推荐您去做某个检查。这就是体检策略最基
本的逻辑框架。于是我们需要做的就是回答以上这两个问题了。
小前提:
Who am I ?
无论您是否看了前两天的吵架贴,只要您仔细看本系列之前的几篇,您应该已经想到了这个“我是谁”的问题。这个该由谁来判定呢?可以是您自己,也可以是别人,总之您得做个判定。如果把自己判错了群体,那么结果就很可能很难解释。
大前提:
某个检测方法是否适合用于某个人群,我们用“预测值”来判断。预测值分两种,阳性预测值和阴性预测值,之前的贴里已经说过基本定义。
这两个指标受制于:
1,检测方法本身的能力,也就是敏感度和特异度
2,被检测人群的患病率
假设有10000人的一个一般人群,对自己啥都不知道,但真实的癌症患病率是0。5%,也就是50人。
再假设某种方法敏感度特异度都是90%
那么会有50*90%+9950*(1-90%)=1040人检出阳性
其中45人是真的病人,阳性预测值是45/1040
如果敏感度90%,特异度70%,那么阳性预测值就只有45/3030了
1040或者3030个检测“阳性”的里面只有45例是真的。
如果这个人群里有500人感觉不好或者简单体检发现可能有问题,而这500人里面包含了40位癌症患者,也就是8%的患病率
同理可得,敏感度特异度都是90%,阳性预测值是36/91
如果敏感度90%,特异度70%,阳性预测值是36/181
看上去比前面的好多了。
这就是检验科医生说的故事,但同时也是肿瘤科医生说的故事。
到底怎么回事?
土鳖抗铁牛
肯定不应当是这个数。按这个算的话F-score有50%,这在疾病检测中是非常高的了。
为什么两个医生都相关?
其实万变不离其宗,还是一个“人群”的问题。
检验科医生面对的是所有送来的样本--注意,不是全人群的随机样本--是各个科室医生觉得需要做这个检查的就诊者和自己要求做这个检查的就诊者的样本。
太复杂了对吧。所以这个人群实在没法定义,各家医院面对的人群也完全不一样,于是很多临床上的检测报告在各家医院之间有时候就是不能以同样的标准来解释了--楼歪出去,现实大量的重复检测,一部分是因为某些人想赚钱,一部分是因为某些医院的检测水平比较低/检测方法比较差,另一家的医生不相信,还有一部分是因为各个医院的检验科其实下结论的人群都不一样,潜移默化里面会对所下的结论有不同的影响。
这就是检验科医生的描述所对应的人群。
再回头看肿瘤科医生的话。
这个就更复杂一些了--学医不是那么容易的,虽然很多患者久病成良医了,但是如果一知半解去跟医生争论该怎么治,那还是很容易出问题的--又歪了,搬回来。
肿瘤科医生其实需要做一连串的判断:
1。医生是不是相信这个检查
另一个条件概率-给定他经验所及的会来找他看病的人群,这个检查结果是否可信的条件概率
2。根据某一位就诊者既往资料和现有的检查决定是否要做某一个检查
这是一个条件概率
3。相信这个检查结果,这个结果代表什么
如果这个检查结果可信,那么预期疾病进展的条件概率
这就是肿瘤科医生的故事。
于是我们可以对照着这位去体检的哥们,看看他到底得了一个什么回答呢
土鳖抗铁牛
已经是课堂上的经典笑话了,呵呵。Sen+Spe=1,等于抛硬币(如果硬币两面是50:50均匀分布的话)
意思我是明白的,只是这个正确的前提是人群中HIV的比例是50%。
随便你给个HIV感染比例,只要敏感度是50%,特异度是50%,根本检测不出什么东西出来。
比如1000人,100%感染,查出500个阳性
1000人,50%感染,还是查出500个阳性
1000人,10%感染,还是500个阳性
和抛硬币没有任何区别。
虽然都是500个阳性500个阴性,但敏感度特异度就都不一样了啊。
(我们一般叫“精度”和“召回率”,用P和R表示,所以下面用这两个字母)
第一个例子,P=100%, R=50%
第二个例子,P~=50%, R~=50%
第三个例子,P~=10%, R~=50%
以你这种方式预测,R一定是50%,但P基本上等于人群中的阳性率,因为被预测为阳性的500人是整个人群的随机抽样。
请看本系列里对敏感度和特异度的定义
并请参考阳性预测值。
串联和并联
中学我们就知道,串联电路和并联电路是不一样的,医学检查也是一样
因为世界总是不那么完美,医生很多时候没法根据某一项检测来确诊或者获得足够高的信心来判定--比如阳性预测值很低,于是就需要做多项检测。
多项检测的策略最基本的有两种,串联和并联。一个医生诊断的艺术纷繁复杂,其中很重要的一条就是看他怎么把各种手段组成有他自己特点的串并联电路并应用于病人。
水平高超的医生通过经验和逻辑会选择尽量少的检查,通过合理安排其排列次序达到很高的效率--这就是决策树,学管理的河友应该并不陌生。另一方面,如果社会对医生的压力太大,特别是保险公司/医患矛盾过于突出,要求医生举证的责任过大,那么出于理性的自我保护,医生也许就会牺牲效率,而选择另外的电路排列方式,最大限度地保护自己。
闲话扯回来。说说串并联。
串联检查,就是先进行检查A,如果有问题/发现阳性再进行检查B。数学上可以推导,给定两种方法的敏感度和特异度之后,串联可以提高整体的特异度,但是降低了整体的敏感度。
这样的好处是尽量减少假阳性,特别在检出阳性结果可能带来巨大的社会心理影响的时候。最典型的是HIV感染的检测,先要初筛,初筛阳性之后再做确诊检测。
并联检查,就是同时进行A和B检查。并联检查的结果判定又分为两种
1。A和B同时为阳性时判定为阳性
这种和串联检查其实没什么太大的差别(不能说完全一样),现实意义下的主要差别是你一次掏钱的数目。时间上串联可以有一部分人不做第二个检测,少掏一些钱。
2。A或B为阳性时判定为阳性
这种是真正意义上的并联检查。本着宁可错杀1000,不可放过一个的空一格精神,这种方法提高了敏感度,但降低了特异度。
于是我们只能感叹,天下没有免费的午餐!
但是免费的午餐还不止于此。
土鳖抗铁牛