09-30 08:21 阅读 317

论文写作或审稿时的十种常见统计错误（上）

近年来涌出了许多关于提高研究可重复性必要性的文章，也有许多呼吁提高统计分析技术训练的声音。但在本文中，我们仅讨论科学文献中常见的十种统计错误。

尽管许多研究者强调了透明度和科研伦理的重要性，一些显而易见的统计学错误仍然在论文中出现，这些统计错误可能让作者们推断出数据并不支持的结论。重要的是，尽管这些论文是错误的，人们也常会信以为真。

我们认为，防止发表错误结果的最恰当时机是在期刊的同行评审过程，或者是在预印本出版后的线上讨论。本文的主要目的是为审稿人提供一个可以识别和处理这些常见错误的工具。

本文讨论的这些错误都是众所周知，并且在很多文章中被提及的，但是仍持续出现在期刊中。此前对这一话题的讨论大多集中于一个或几个相关的错误：我们希望能通过讨论十种最常见的错误，为作者和审稿人提供一个可参考的错误列表。这对研究者设计实验，分析数据和撰写文章都会有所帮助。

我们的错误列表来源于伦敦可塑性实验室的文献讨论中，包括对神经科学，心理学，临床和生物工程杂志上论文的报告与讨论。之后，我们作为读者、审阅者和编辑的经验进一步完善了该列表。尽管该列表中的错误来自与神经科学有关的论文，但与任何使用统计学评估结果的学科都是有关的。本文中，我们讨论了这些错误的产生，作者和/或审稿人如何发现错误，并提出了解决方案。

我们发现，这些错误通常是相互依存的，一个错误很可能会导致其他错误，这意味着许多错误无法被单独纠正。此外，处理这些错误通常有多种方法：例如，我们通常使用频率参数统计，但我们未讨论的贝叶斯方法也是可行的解决方案。

为了促进这些错误的进一步讨论，并提出解决这些问题的最佳方法，我们鼓励读者在本文的线上版本中评论，为我们提供不同的解决方案（点击“annotations”图标）。这样的话，其他读者也会从多样的想法和观点中受益。

我们希望对这些常见错误更好的认识可以使作者和审稿人更加小心，从而使（本文中的）错误不再那么常见。

1. 缺乏适当的控制条件或者控制组

在多个时间点进行测量是科学研究中评估干预效果的常见方法。例如，在检验某种训练的效果时，研究者通常会测量行为或生理指标的变化。但是，测量结果的变化，也可能是研究中与干预（训练）无关的因素导致的。

因此，就算在没有干预的情况下，重复相同的任务，干预前后的测量结果也会发生变化。例如，被试的练习效应或疲劳效应。因此，对于任何研究，只要探索实验操纵对某一变量随时间变化产生的影响，都需要有控制组，以供与实验组进行比较。

有时候研究者确实设置了控制组/控制条件，但由于这些控制条件（控制组）不包括可能会影响被测量变量的关键因素，实验设计或实施（往往）是不完整的。例如，控制组没有接受“假”干预，或者没有进行双盲处理，使得主试对结果有预期，进而导致效应量的夸大。

其他常见的错误，则是：

1) 由于采用了样本量过小的控制组，没有充足的统计检验力检测到测量变量的变化。

2) 采用了一个使用不同基线测量（baseline measure）的控制组而导致虚假交互。

同样重要的是，控制组和实验组必须同时取样并随机分配，以最大程度地减少偏差。理想情况下，控制组和实验组的操纵应该在实验设计和统计检验力上相同，并只在特定刺激维度和操纵变量上有所不同。只有这样，研究者才能确保实验操纵对变量的影响大于时间对变量的影响。因此，如果对变量进行前后测比较，应添加控制组。

如何发现该错误

结论是在没有充足的控制情境而根据单个组的数据得出的，或者对照情境/组没有捕捉实验操纵的核心特征。

解决方案

如果实验设计不能将时间效应与干预效果区分开，那么有关实验干预效果的任何结论都是不准确的。

2. 没有直接比较两个效应强弱时解读效应的强弱之别

有时研究者发现在实验组中某个干预有显著效应，而在控制组没有产生显著效应。（他们往往会据此）做出干预有效的结论。基于（干预）在这两个（组中效果）显著性不同的结果，研究者有时会认为实验组中的效应大于控制组中的效应。这种推论非常常见，但却是错误的。

例如在图表1A中，测量两个变量X和Y，采用两组被试，每组20人。两组测量在统计显著性上可能会有不同的结果：A组中，两个变量之间的相关系数可能显著（即，p≤0.05），而B组中相似的相关系数可能不显著。即使这两个变量之间的关系在两组中几乎相同，这种一组数据有显著效应另一组没有的情况也可能发生（图表1A），因此，我们不能认为一个相关关系比另一个强。

图1 没有直接比较两个效应强弱时解读效应的强弱之别

首先，两个变量X和Y，在A和B两组中进行测量。很明显，这两个变量之间的相关关系在这两组测量中都没有区别。然而，如果计算皮尔逊相关系数r的显著性，将两个相关系数与0相比较，却可能得到一个组（组A；黑色圆点；n=20）的相关性在统计学上显著（基于p≤0.05的阈值），而另一个组（组B；红色圆点；n=20）不显著。然而，这并不说明变量X和Y之间的相关关系在两组之间不同。可以用蒙特卡罗模拟来比较两个组的相关关系。

其次，在实验研究的情境中，可以看到两组之间在某一特定测量结果上的差异（例如，训练前后的差异）。组C和D的均值相同，但是D组的方差更大。如果使用独立样本t检验将每一组的结果指标分别与0比较，会发现一组的变量与0之间有显著差异（组C；左侧；n=20），但是另一组不存在显著差异（组D；右侧；n=20）。然而，这并不能说明两个组的测量结果存在不同。这时应该使用配对样本t检验（顶部）直接比较两个组：结果表明两组的测量结果没有差异。

在不同的两组中评估一个干预的效果时也会出现类似的问题：干预会在一个组中产生显著效果，而在另一组中不出现显著效果（图表1B）。然而，这并不意味着干预的效果在两组之间不同；实际上在这种情况下，两组并没有明显的不同。通过两种效果间直接的统计比较，只能得出干预效果与控制干预（control intervention）的效果不同。因此，必须使用一个统计检验来比较这两种效果，而不能只是分别两次单独的检验然后根据它们在显著性上的差别进行推断。

图2 虚假相关：单个离群值和子组对皮尔逊相关系数的影响

A-C中，我们用19个样本（黑色圆圈）模拟了两个不同的非相关变量，并添加了一个额外的数据点（红色实心圆圈），该数据点与主要数据的距离会系统地变化，直到成为完全的离群值（C组）。注意，随着主要数据与红色数据点之间距离的增加，皮尔逊相关系数R值会人为增加，这表明单个数据点可能会导致虚假的皮尔逊相关。

D-F中，我们用20个样本模拟了两个不同的不相关变量，这些变量被随机分为两个子组（红色vs.黑色，每组n=10）。从D组到F组，我们系统地改变了两个子组之间的距离。同样，R的值会随着子组之间距离的增加而人为地增加。这表明在未考虑子组存在的情况下相关变量会产生虚假相关。置信区间（CI）用灰色表示，并通过Bootstrap 程序获得（灰色区域代表所获得的相关值分布的2.5％和97.5％之间的区域）。

如何发现该错误

这个错误往往发生在我们想比较两种效果之间的差异，却没有用统计学方法对两种效应进行直接比较时。该问题也经常在研究者没有进行必要的统计分析就进行推断的情况下发生。

解决方案

研究者进行组间比较时，应直接比较各组。两组的相关关系可以用蒙特卡罗模拟进行比较。对于多组比较，可能适合用ANOVA。非参数统计也提供了一些方法，但这些方法需要根据具体情况使用。

3. 分析单元虚高

实验单元是可以被随机独立分配的最小观测（smallest observation），即可以自由变化的独立数值（independent value）的数目（Parsons et al., 2018）。在经典统计学中，此单元反映的是自由度（df）：例如，当推断组间结果（group results）时，实验单元就是被试的数量，而不是对每个被试观测的次数。但研究者经常将这些指标混为一谈，从而导致理论和实践上的错误。

理论上讲，如果没有清楚地确定恰当的实验单元来评估观测值的变异，那么统计推断就是有缺陷的。从实践上讲，这会导致实验单元的数量虚高（例如，对所有被试的观察次数通常大于被试的数量）。当df增加时，用来判断统计显著性的阈值会降低，这种情况下，如果效应是真实的，则更容易观察到显著结果（增大统计检验力）。这是因为检验结果会因为df增加有更大的可信度。

为了说明这个问题，（我们可以）假设要用一个样本量为10的简单前后测纵向研究设计来研究干预的效果，研究者想要通过简单回归分析来评估主要指标和临床状况之间是否存在相关性。

分析单元应该是数据点的数量（每个参与者为1个数据点，共10个），df为8。df=8时，达到显著性的临界R值（α水平为.05）为0.63。也就是说，高于0.63的任何相关性都是显著的（p≤0.05）。

如果研究者将所有参与者的前后测数量加起来，最终的df=18，则临界R值就会变成0.44，从而更容易观察到统计学上的显著作用。这是不恰当的，因为把被试内和被试间的分析单元混淆，导致了测量结果之间的依赖，而特定题目的前测分数不会变化，也不会影响后测分数，这意味着实际上只有8个独立df。这通常会导致即使没有足够证据证明效应的存在，结果也被解释为是显著的。

如何发现该错误

审稿人应该思考分析单元的恰当性。如果一项研究旨在了解组间效应，则分析单元应该反映被试间的差异，而不是被试内。

解决方案

也许最可行的解决方案是使用线性混合效应模型，研究者可以将被试内的变异定义为固定效应，将被试间的变异定义为随机效应。这种日渐流行的方法允许将所有数据放入模型中，且不会违反独立性假设。但是，它很容易被滥用，并且需要丰富的统计知识，因此在应用和解释时应该谨慎。

对于一个简单回归分析，研究者也有几种解决方法，最简单的方法是分别计算每个观测值的相关（例如，前测、后测）并根据现有的df解释R值。研究者还可以计算所有观测的平均值，或单独计算前测/后测的相关性然后对所得的R值求平均（在使用正态化的R分布后，例如，R分布转化为z分布），并据此进行解释。

4. 虚假相关

相关是科学中评估两个变量之间关联程度的重要工具。然而，参数相关（例如皮尔逊相关系数R）的使用是依赖于一系列假设的，（不违背这些假设）非常重要，因为违反这些假设将导致虚假相关。虚假相关最常发生在其中一个变量存在一个或多个极端值的情况中。如图表2的第一行所示，在分布中远离其余值的单个值会增大相关系数。另外，虚假相关还可能源于集群，例如，当两组的两个变量不同时，把两组的数据合并在一起（正如图表2下面一行）。

请务必注意，极端值很可能会提供一个真实的、遵循规律的观测结果（这个规律可能正是你想发现的）。也就是说，观测值本身不一定是虚假的。因此，去除“极端”数据点时也应该格外谨慎。但是，如果这种真实的观测是有违反你的统计检验假设的风险的，那它就是虚假的，并需要使用其他统计工具（进行检验）。

如何发现该错误

审稿人应该特别注意相关性（研究）缺少散点图的情况，并思考删除数据的理由是否充分。此外，如果将数据合并在一起，审稿人需要考虑到组间或情境间的差异（参见上面的“夸大分析单元”）。

解决方案

在大多数情况下，应该选择稳健的相关分析方法（例如，bootstrapping, datawinsorizing, skipped correlations），因为它们对异常值不那么敏感，这是由于这些测验考虑了数据的结构。使用参数统计时，应筛选数据以避免违反关键的假设，例如数据点的独立性，以及异常值的存在。

参考文献

Makin, T. R., & Orban de Xivry, J.-J. (2019). Ten common statistical mistakes to watch out for whenwriting or reviewing a manuscript. eLife, 8, e48175. doi:10.7554/eLife.48175

文章转载自公众号：OpenScience

作者：Makin, T. R., & Orban de Xivry, J. J.

译者：李芊芊

排版：华华

作者:行上行下

原文链接:https://www.jianshu.com/p/9fccdc34d7c3