主题：投票【原创】辛普森悖论 -- earthcolor

共:💬52 🌺28

老大河待整

投票信息
单选，参与 19 / 9
0
4/2
0
11/5
0
4/2
0
0/0

分页树展主题 · 全看首页上页下页末页

- 复【原创】辛普森悖论
  家园 当然是选b
  话说市场有两种治疗某种疾病的药A和B（没有其他选择），统计结果显示：对整体测试人群（不分男女），A比较有效。但是，如果将测试人群中的男性和女性分别考虑，B无论单独对男性还是对女性都比较有效。请问：你作为医生，来了一个病人，你会选择哪一种药？
  出现这种结果，必然的原因是A和B的测试样本中男女比例不同。。当考虑到相同的男女比例时，B的总体效果肯定比A好。
  实际上如果是任意抽取人群（不考虑男女），有一个隐含的条件就是，男女比例符合正常社会男女比例。
  这个序列可以一直列下去，根据这些特征，最后有可能就找到一个特定的人：他的成绩好或不好。但是，抽烟到底对智力有什么影响，可能是仁者见仁，智者见智了。
  至于这个，当用一系列的条件附加以后，就已经失去了统计对比的意义了。
  有个是否可以比较的问题在吧。
  - 复当然是选b
    家园 你被忽悠了
    出现这种结果，必然的原因是A和B的测试样本中男女比例不同。。当考虑到相同的男女比例时，B的总体效果肯定比A好。
    好,假设你面对的是个男病人,选了B,如果我再继续告诉你,在参加测试的男病人里,如果分各个年龄段分别统计,A的效果均好于B,那么根据你的逻辑:
    出现这种结果，必然的原因是A和B的测试样本中年龄段比例不同。当考虑到相同的年龄段比例时，A的总体效果肯定比B好。
    哈哈,你是不是现在改变注意选择A呢?
    继续继续,我们知道这个男病人有过往病史,我们再在这个男病人的年龄段中选择有过往病史的进行统计,发现B的效果又比较好,那么你的选择是否又变回B?
    .......
    你被辛普森悖论给忽悠了.啥时候聊聊变量选择在统计中的作用吧.
    - 复你被忽悠了
      家园 这不是加不加变量的问题
      统计方法本身就有问题。
      如果只比较均值不能说明什么，至少需要加上标准差再用t-test来计算显著性。
      您举的例子，如果对所有人群的样本计算p值，显著性一定是不高的。
    - 复你被忽悠了
      家园 呵呵。。选择。
      那么一个问题：到底是要按照年龄来确定结果呢还是要按照性别来确定结果？
      您只给了按照性别的结果，那么当然只能按照性别来进行选择。
      如果只给了年龄结果，那么当然只能按照年龄的结果来选择。
      如果既给了年龄有给了性别，那么就要根据年龄-性别的结果来选择。
      增加选项是个分析过程。而当结束分析过程以后，而选择是基于分析过程的结果之上的。
      你可以加入任意个选项。但是当你确定了你的选项以后，结果不是唯一的么？
      - 复呵呵。。选择。
        家园 问题是：在分析的过程中，要不要加入新的变量？
        正像你所说的，如果变量已经确定了，那么结果可能是唯一。
        问题是：在分析的过程中，要不要加入新的变量？
        因为加入新的变量后，结论可能完全相反。而加不加一个变量，都很难有特别充分的理由。所以，在这样的数据分析中，变量选择是一个非常重要的问题。
        复问题是：在分析的过程中，要不要加入新的变量？
        家园 加不加变量，是系统模型问题
        和统计方法无关。
        对统计结果来说，加之前和加之后都是合理的，无论他们有多大的偏差，并且结果不可比较。
        复加不加变量，是系统模型问题
        家园 我们认识上有差异。我的观点是：变量选取在统计中是很重要的
        你说“加不加变量，是系统模型问题”，是另外一种观点。将变量选取和统计分析看作两部分分离的工作。
        而我认为变量选取和统计分析是统一在一起的，不可分割的。当然，变量已经事先确定好了，就不需要在进行变量选取这一步了。
        我们只是观点不一样。
- 复【原创】辛普森悖论
  家园 怎么想都觉得不对头 --- 兄弟能否拿出具体数字来说明一下呀？
  楼下东方兄弟的例子俺也完全看不懂。老马丁举的例子非常好，而且与我工作中的案例完全吻合，不过那是个权重问题，而您这个例子应该没有权重问题，而且东方所举的例子里男女都是10人，也不存在权重问题，所以我就彻底糊涂了...
  我来举个例子吧，男女都是100人，按您的条件，B单独对男性有效率高于A，B单独对女性有效率也高于A，所以应该是：
  ..................A..........B.........A有效率.....B有效率
  男 100.......70.........80........... 70% < 80%
  女 100.......50.........60........... 50% < 60%
  总 200......120.......140.......... 60% < 70%
  无论怎样弄，B对于男+女，永远都比A高。怎么会出现B比A低的情况呢？
  - 复怎么想都觉得不对头 --- 兄弟能否拿出具体数字来说明一下呀？
    家园 讨论一下
    东方射日已经给了例子，我就不费力了。东方射日:不对啊，老酒。
    在老酒的帖子，提到送哭胖。送哭胖是可以控制的：公司有权决定送不送哭胖。
    但在另外一些例子中，一些变量是不受试验设计者控制的:比如学生的入学申请、抽不抽烟。这些变量不受试验者控制，但对结果有影响。重要的是样本集中的分布不均匀。
    所以，在分析中，要将不受控制的变量和受控的变量区分开来。
    根据我的理解，对于不受控制的变量所产生的辛普森悖论，还没有被一致接受的解释。就看自己的出发点了：从全局看，某一个方案较优；从各个局部看，另一个方案较优。看到这一点，让我对不同决策者的考虑思路有了一些理解。
    - 复讨论一下
      家园 这下明白啦
      俺平时的工作主要是针对人为设计的实验出来的数据进行分析，对自然生成、人无法控制的数据的分析，就不行了。
      老马丁的例子很经典，但那个例子中不牵扯到做决定(做选择)的问题。如果有那种需要做选择的问题，是否可以有其他角度、因素来帮助我们做出合理的选择呢？
      - 复这下明白啦
        家园 没有经验，胡乱说几句
        这个问题比较大，我没有经验。考虑了一会，感觉还是只能胡乱说几句。
        先解释一下，在老马丁的例子中，有一个隐含的下一步选择：要不要改变招生政策？如果数据分析显示有性别歧视，就要改变招生政策了。很多数据分析，无论原数据中有无可控变量，都是为下一步选择做准备的。
        再说几句体外话：在很多的统计的实验设计中，主要考虑所得到的数据是否能更好地验证给出的假设，实验设计是为假设验证服务的。在假设验证之后（无论接受与否），可以根据假设验证的结果，采取相应的选择或决策。
        我自己对假设生成更感兴趣。有了好的假设，才可能在假设验证中发现有数据支持的结论。当然，这不是说假设生成比假设验证更重要。而是想强调，假设生成和假设验证是统一的一个整体中。统计课本中，更强调假设验证。这个现象的原因可能是假设验证已经比较系统化，而假设生成还比较初级。
        好了，回到主题。下面完全是个人的理解，没有理论或技术支持。我随便说说，你随便看看。
        如果一个公司要有一个全套的D marketing 策略，那么公司一定要建立自己的客户模型：哪一类客户对哪一类广告感兴趣，并会有购买的行为？我想，可能需要多次收集数据，才可能达到这个目标。
        如果一次只想验证一个假设，比如一段时间的广告，对产品的销售额有多大的提高？这样的假设验证容易操作一些。但结果不一定可靠，因为可能还有很多因素在起作用。举个例子，如果一个公司在11月做了广告。过了元旦，发现产品的销量比前几个月、比往年都增加了很多。这会不会是广告的效果呢?我认为还更具体的分析：要过圣诞了、过元旦了，所有同类的消费都增加了；可能当年的经济好，所有同类的消费都增加了。
        我的建议是：1）尽量建立一个整体模型，根据整体模型，选择每次要进行的假设检验。
        2）如果能有同类公司的同时期的数据，可能比较更有效果
        复没有经验，胡乱说几句
        家园 我的理解，一是建模，二是利用已有统计结果作判断
        统计模型提供了判断的基础，“判断”本身也涉及到规则确定。统计模型会需要调整，“判断”规则也可能会需要调整。最终则取决于效果。
  - 复怎么想都觉得不对头 --- 兄弟能否拿出具体数字来说明一下呀？
    家园
    不对啊，老酒。
    不对啊，老酒。
    你说的例子不对啊。男女各100个样本，在做药品试验是不可能每个人均服用A和B的。既条件A和条件B是互斥关系。只能是A或B的关系，这里就有一个试验A或者B的比例问题。当然，我们在实验中，为了防止不同变量带入的影响，会保持各个变量在不同条件下等权。所以不会出现我所说的例子。
    例如100个男的使用A和B的各50人，同时也要求100个女的，使用A和B的各50人。这样，不会出现辛普森悖论。
    但即使在这种情况下，在同一样本群中，我们继续引入其他变量一定会打破平衡的，例如除了性别，我如果再加入年龄，过往病史，甚至星座，对袁崇焕是否是英雄的看法，喜欢奔驰还是宝马等、、、
    在大样本试验中，或是在实际统计中，是很难做到所有变量在不同条件下等权的，那就会出现辛普森悖论。
    例如，在楼主的文中，统计抽烟和学习成绩的关系，我们无法真正做到所有变量等权。不可能在抽烟/不抽烟对照组中男女、年龄、种族等等都相同。
    其实涉及的问题就是变量和条件的相关性。
    我再举个例子：
    在抽样试验中，抽取男女各1000个样本，比较伟哥和壮哥对延长性高潮的效用。
    其中有400个男的使用伟哥，总有效率是91%；600个男的使用壮哥，总有效率是90%；　600个女的使用伟哥，总有效率是10%；400个女男的使用壮哥，总有效率是9%。
    于是伟哥公司说我们的产品无论对男女，效果都比壮哥好。
    壮哥公司说，不对啊，总有效率伟哥才（400*91　+　600*10）/1000　=　42.4%；而我们壮哥的总有效率是（600*90　+　400*9）/1000　=　58.6%。明显好过伟哥。
    当然明眼人知道他们都是在忽悠人。1个百分点的差别在1000个样本中实在说不上显著的差别。唯一说明问题的就是无论伟哥还是壮哥对男的效果好与女的。
    
    本帖一共被 2 帖引用 (帖内工具实现)
    讨论一下
    欢迎挖坑！把统计偏差的影响多讲些
    - 复不对啊，老酒。
      家园 这些明白了。花谢兄弟敲字解释
      俺先前没想到互斥的要求。
      兄弟说的很对，就这个例子来说，在设计时避免出现权重不同就好了。但引入更多变量后可能无法避免权重不同的情况。这就要看那个变量是否符合人们的常识了...
    - 复不对啊，老酒。
      家园 送花！你的例子很不错！
      请问老兄是搞哪方面的？

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明

主题：投票【原创】辛普森悖论 -- earthcolor

单选，参与 19 / 9