疫情下的幸存者偏差，终于有人把幸存者偏差讲明白了-资讯中心-韩韩H5开发

相信对于终于有人把幸存者偏差讲明白了以及关于疫情下的幸存者偏差的话题，很多人网友都想了解，那就让小编带大家来解一下吧！

***次数71634855已用完，请联系开发者***导读本文带你了解数据收集的偏差。作者徐晟数据收集是一项重要的工作，需要投入大量精力和时间，这是因为数据质量直接关乎分析结论的成败。然而，错误的数据收集方法可能造成结果偏差。比如统计对象出现错误，明明应该统计数据***A，却统计了数据***B。又比如统计对象不全面，只抽样了部分数据，却没有统计全体，或者忽略了数据分布存在偏斜等。这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差和选择性偏差。01幸存者偏差幸存者偏差指用于统计的数据仅来自幸存者，导致结论与实际情况存在偏差的情况。幸存者偏差源自一个真实故事二战时期，美军统计了作战飞机的受损情况，他们发现，返航飞机各个损伤部位被击中的弹孔数不同。这些飞机发动机部位的弹孔数最少，机翼的弹孔数量最多。于是有人提出，要赶紧加固飞机机翼，因为这些部位更容易受到敌方炮火的攻击。可是，美国哥伦比亚大学的沃德教授立即否决了这个方案。沃德教授是一位统计学专家，他应军方要求提供相关专业建议。沃德指出，应该强化的不是机翼，而是发动机。从理论上讲，飞机各部位的中弹概率应该是相同的。发动机部位的弹孔明显偏少，只能说明那些被击中引擎的飞机大多没有返航。这就是幸存者偏差，军方只看到幸存下来的飞机，却没有意识到它们只是一部分数据，不能反映飞机受损的真实情况。选择正确的数据样本非常重要。我们必须保证数据考察是全面的，而非其中的一部分。在很多场合，人们下意识地会做出具有幸存者偏差的选择。比如一个粗心的研究者在统计医学数据时，为图方便选择了住院病人为研究对象，却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院。一些成功学的书中提到，比尔·盖茨、扎克伯格、乔布斯、埃里森等成功人士都在大学退学创业，似乎从大学退学更有可能获得成功。但这只是幸存者的案例，我们从未听到失败者故事，更不能说明大学退学创业就是成功的必需特质。如果一项研究是通过已有的样本去研究过去某个规律，那就要当心了，因为它很有可能存在幸存者偏差。当我们选择已有的样本时，就只看到了幸存者，而忽略了没被统计到的样本。比如，查看公司财务报表时，就已经过滤掉了那些经营不善而破产的公司；查看老年人在医院的诊疗记录时，就默认地排除了没有活到老年的人群；统计某款手机软件的受欢迎程度，不自觉地排除了那些买不起手机或者从未安装过该手机软件的人。这样的例子比比皆是。之所以会产生幸存者偏差，是因为很多人从一开始就搞错了统计样本，只看到经过筛选的数据，但没有意识到筛选的过程。如果只是人为地选择部分观察数据，那就无法保证结论的客观性。要获得“全样本”数据绝非易事。由于认知局限，很多人只看见了那些能看见的现象——比如受损的飞机、就医的病人、成功的企业家、公司的报表，但忽略了没有看见的真相—未返航的飞机、健康的人、失败的创业者、破产的公司，而这些被忽略的数据同样重要，甚至更加重要。02选择性偏差19世纪初期，人们认为统计就是要追求考察对象的大而全，数据越多，结果就越准。不过，想要考察大而全的总体，有时不具备操作性。于是一些统计学家提出了抽样的想法，认为只要方法得当，就算不考察总体，也能通过研究一部分有代表性的随机个体来推断出总体的特征。这些从总体中选出来的个体的***，叫作样本，随机选择的动作叫作抽样。统计学界围绕“抽样”这件事争论了好几十年。直到20世纪30年代，抽样的科学性才被学术界逐渐认可。抽样是一种非常好的了解大量样本空间分布情况的方法，适用于大样本。抽样的对象要尽可能分散和有代表性，这样才能体现出整个样本的分布特点。不过，抽样毕竟对研究对象做了精简，因此它很可能存在样本选择上的偏差，即选择性偏差。比如想要调研中年男性的健康程度，抽样时只选了亚洲人，这个抽样对象显然不够全面。又或者，调研时只收集了若干人的数据，研究样本过少，因此得到的结论也不具备普适性。选择性偏差是在抽样时出现的一大题。有时，人们为了证明自己的观点，倾向于选择特定的数据来支撑结论，从而忽略了其他证据。采用有偏差的抽样数据，几乎可以得到人们想要的任何结论。假如在调研卷中这样一个情感题“假如爱情可以重来，你是否还会选择和他/她在一起？”结果会如何呢？我想多数会收到“不会”的案。这并不是真相，只是那些回复的人群可能是“有偏的”。因为调查卷是自愿回复，所以对这个话题抱有强烈负面感受的人，更有可能不厌其烦地做出回应，那些生活幸福的人也许随手就将卷丢进了垃圾桶。又比如，去高档的购物场所进行调研，会出现选择性偏差，因为去那里消费的人相对富有；而如果去山村调研，则很可能得出完全相反的结论。在以上的例子中，前者由被调查的人自行决定要不要回应，后者则由调查人员决定如何选取样本，这两种调查方法都会人为地影响统计结果。抽样的结论若要很好地代表整体，需要具备两个条件一是样本足够大，根据大数定律，这样的样本分布更接近总体；二是抽样方法要正确，确保抽样是完全随机的，它既不受调查者的选择影响，也不受被调查者的偏好影响。采用随机抽样的方法，可以一定程度上消除对样本选择的偏差。以民意调查为例，我们知道，美国的总统选举永远是个热门话题，网络和媒体会密切关注，并跟踪报道一手资料。其中一个热门话题就是关于选举结果的预测。由于选会涉及不同阶级、不同种族、不同利益的人和团体，所以要调研民众意向，抽样时就应该考虑兼顾各种利益团体的样本，否则很有可能出现带有偏差或者歧视的结论。为了调查民众的看法、意见和心态，乔治·盖洛普设计了一种盖洛普民意测验。他根据年龄、性别、教育程度、职业、经济收入、宗教信仰这6个标准，在美国各州进行抽样卷调查或电话访谈，然后对统计结果做出分析。此方法产生于20世纪30年代，今天仍会被使用，并且有着相当高的权威性。总之，抽样要针对大样本，保证样本的随机性。如果抽样的样本很少，或由于其他原因导致了统计不充分，那么结论很可能是错误的。小结数据样本偏差带来了“以偏概全”的风险，它会得出“差之毫厘，谬以千里”的错误结论。过去，人们担心小样本导致统计误差；而在大数据时代，这个题并不会消失，反而变得更加复杂，也更难察觉。幸存者偏差提醒我们，要考察所有类型的数据。选择性偏差提醒我们，要客观地挑选数据。前者是因为没有准确选择研究对象而导致的偏差，后者是由于没有“公平”地挑选数据导致的偏差，两者都未看清数据的全貌。为了避免幸存者偏差，我们需要拥有全面的数据***，而不是有意或无意地排除总体中的某个子集。为了避免选择性偏差，我们应该客观地考察所有数据，而不是仅仅考虑少量的数据，或者支持既定假设的数据。关于作者徐晟，某商业银行IT技术主管，毕业于上海交通大学，从事IT技术领域工作十余年，对科技发展、人工智能有自己独到的见解，专注于智能运维、数据可视化、容量管理等方面工作。本文摘编自《大话机器智能一书看透AI的底层运行逻辑》，经出版方授权发布。《大话机器智能一书看透AI的底层运行逻辑》推荐语AI是什么？机器如何拥有“智能”？“智能”如何起作用？本书以通俗易懂的方式，勾勒人工智能的全貌，展现AI的底层运行逻辑，即AI是如何工作的。

一、幸存者偏差是什么意思？

幸存者偏差指的是当取得资讯的渠道，仅来自于幸存者时，此资讯可能会与实际情况存在偏差。幸存者偏差，是由优胜劣汰之后自然选择出的一个道理未幸存者已无法发声。

二、幸存者偏差告诉我们什么？

幸存者偏差，另译为“生存者偏差”或“存活者偏差”，是一种常见的逻辑谬误。这个被驳斥的逻辑谬误指的是只能看到经过某种筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。当过度关注“幸存”的人事物，从而造成忽略那些没有幸存的，便会得出错误的结论。举两个例子老师在课堂上点名“没来的同学请举手。”这样得出的班级上课出勤率是100，而实际情况是你统计的样本中根本就没包含缺勤的同学。统计春节火车买到率在高铁上询乘客是否买到车。这样得出的火车买到率是100，而实际情况是你统计的样本中全是买到车的人。