别拿相关当因果「pdf+epub+mobi+txt+azw3」
6.4 现在该怎么办
或许你身上戴着活动监视器,搜集了好几个月的运动和睡眠数据;或许你从你们小区的报案记录中得到了一些数据,想从中找到犯罪的原因;或许你看到有人从社交媒体的帖子中发现了当地流感的流行趋势。那么,你该如何着手分析你搜集到的数据呢?
因果推理的方法不止一种,一定要认识到这一点。目前还没有哪一种方法能够在所有案例中都准确无误地找到事件之间的因果关系(这就让我们有了很多研究的机会)。有些方法得出的结论更具普遍性,但是这些结论取决于那些实际上不一定为真的假设。只知道一种寻找因果关系的方法并孜孜不倦地用它来解决每一个问题是不行的,我们需要的是一个工具箱。大部分方法都可以通过调整来适应大部分案例,但调整后的方法既不是最简便的,也不是最有效的。
没有一种方法是完美的,所以一定要了解每一种方法的局限性。比如说,如果你的推理是建立在双变量格兰杰因果关系基础之上的,那么你应该意识到,你找到的只是一种单向相关性,同时还应该考虑一下多变量的方法。如果因果结构(变量之间的联系)是已知的,而我们想要从一些数据中找出这个结构的各种参数(概率分布),这时贝叶斯网络也许是一个很好的选择。但是,如果时间是其中一个重要变量,那么使用动态贝叶斯网络或者研究因果关系时间变量的方法可能更合适。此外,我们研究的数据是离散的还是连续的也会限制我们所使用的方法,因为很多方法只能适用于其中一种类型的(而不是两者都适用)数据。如果数据中包含大量变量,或者我们并不需要找出完整的关系结构,那么用于计算因果关系强度的方法比推理因果模型的方法的效率要更高。但在使用这些方法时,还要考虑是否需要建立原因之间相互作用的模型,以便我们能够预测各种结果。因此,在决定使用哪些方法时,原因的用途和已有数据同样重要。最后还要认识到一点:在搜集和准备数据的过程中,我们所做的所有选择都会对最终推理出来的结论产生影响。