03-30 07:13 阅读 134

AEA主席的老公Romer, 将来“置信区间”是AER的标配, 对置信区间CI的赞歌!

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
AEA主席的老公Romer, 将来“置信区间”是AER的标配, 对置信区间CI的赞歌!

一些相关内容：1.800名科学家联合呼吁, 停止使用统计学上的P值，2.美国统计学会关于ｐ值的声明，3.美国宣布禁用p值，原来p值很危险，如何取代p值？4.科学家倡议P值需要0.005，显著性判断才成立，5.统计显著与经济显著, 发AER和经济研究的标配，6.结果不显著但成功发在Top期刊上的论文有哪些？你心虚过没？7.试了几百次, 回归结果依然不显著, 到底咋办，8.置信区间的通俗解释，统计学的精髓，9.Romer当选美国经济学会主席, 哈佛校长拒绝了她和她的新凯恩斯主义, 却成为奥巴马总统顾委会主席！

正文
关于下方文字内容，作者：王翠，上海财经大学市场营销，通信邮箱：wangcui_2019@163.com

作者之前的文章：世行, 事件研究设计的随机推断: 计量经济学沙盒

Romer, David. 2020. "In Praise of Confidence Intervals." AEA Papers and Proceedings, 110: 55-60.

Most empirical papers in economics focus on two aspects of their results: whether the estimates are statistically significantly different from zero and the interpretation of the point estimates. This focus obscures important information about the implications of the results for economically interesting hypotheses about values of the parameters other than zero, and in some cases, about the strength of the evidence against values of zero. This limitation can be overcome by reporting confidence intervals for papers' main estimates and discussing their economic interpretation.
近几十年对识别的强烈关注，对经济意义和统计意义的强调，对确保标准误差正确的关注，以及处理动态、异质性和非线性的新技术的开发，使得实证研究取得了巨大的进步。
文章的论点是，至少在一个维度上仍有相当大的改进空间。目前大多数现代实证论文都集中在其研究结果的两个特征上：点估计值是否在统计上与零有显著差异，以及点估计值的经济解释。但在几乎所有的应用中，除了点估计和零点估计，参数的潜在值也是令人感兴趣的。把重点放在点估计和统计意义上，不仅掩盖了研究结果对这些潜在值的影响。而且甚至遗漏了反对参数值为零的证据强度的重要信息。报告关键估计的置信区间并讨论其经济解释使研究人员能够传达缺失信息的本质可以解决这个问题。
一、证据
目前的实证论文一般强调点估计和统计意义。作者研究了2019年发表在经济学三大非专业综合兴趣期刊上的实证论文：《美国经济评论》(AER)、《政治经济学杂志》(JPE)和《经济学季刊》(QJE)。具体地说，作者分别检查了2019年发表在这三个期刊中的35份对参数进行统计估计的论文(不是完全的理论或只报告描述性统计数据)，总共105篇。
作者将论文分成五组：(1)重点讨论置信区间的论文，或者以其他方式讨论结果对点估计或零以外的参数值的影响；(2)在文本中突出报告标准误差(或t-统计)但不讨论置信区间的论文；(3)顺带提到置信区间的论文；(4)顺带提及标准误差或t-统计量，但未提及置信区间的；(5)课文中既未提及置信区间，亦未提及标准误差的。
AEA主席的老公Romer, 将来“置信区间”是AER的标配, 对置信区间CI的赞歌!
结果如表1所示，只有14%的论文(105篇论文中有15篇)重点报告了置信区间。另有10%的人略微突出地讨论了标准误差。6%的人顺带提到置信区间，7%的人顺带提到标准误差。
剩下的64%的论文没有提到文本中的置信区间或标准错误。这些论文中，有些只报告估计具有统计意义；有些提供了有关统计意义的定性信息(如“强烈”或“适度”)；另一些报告关于p值的信息(如“在5%的水平”或“p<0.01”，有时报告实际p值)；有些甚至没有说明估计是否具有统计意义。在这些论文中，通常从正文中可以清楚地看出，核心估计的标准误差不到点估计的一半，但除此之外几乎没有什么信息。通常的论调是，一旦知道估计值与零有显著不同，那么结果中唯一重要的方面就是点估计——基本当估计值与零有显著不同时，它可以被视为准确的。表1中的样本量足够大，结果不太可能受到样本中实证论文的随机变化的很大影响。
二、我们为什么要关心？
只知道一个点估计值，并且它与零有显著的不同，这不足以知道数据提供了强大的证据来反对除零之外的哪些参数值，同时它们几乎没有提供反对的理由。在几乎所有的应用中，除了参数为零之外，还有一些令人感兴趣的假设，这是一个重要的遗漏。
具体分析这一点，需考虑两个经典的例子，分别来自微观经济学和宏观经济学。微观经济学的例子是教育回报率——多上一年学的收入增加百分比。在大多数情况下，这种收益率为零的可能性并不引起人们的极大兴趣：如果教育没有经济效益，那么个人将一生中如此多的时间投入教育是没有什么意义的，而且这一领域之前的大量工作已经提供了压倒性的证据，证明回报率为正。
因此，如果一个新的数据集或实证策略提供了关于回报率的新证据，这些证据表明了回报是否高于人们当前认为的水平，此时大多数读者的兴趣将是这些证据与除零以外的各种回报率值有多一致或不一致。考虑接受更多教育的个人和考虑促进教育新项目的政策制定者可能会对新证据的影响感兴趣。从一项新的研究中知道点估计值，并且它在统计学上与零有显着不同，这几乎不能提供收益率的不同备选值含义的信息。
第二个例子是财政乘数——在特定情况下，政府购买每增加一个单位对经济的短期产出效应。有一些模型的乘数为零(具有非弹性供应的弹性价格模型)。其他值也具有潜在的重要性。一个核心值是1的乘数，既是某些模型在特定条件下预测的值，也是刺激增加或减少私人经济活动的边界。设计刺激方案的政策制定者可能会有兴趣将其与之前各种减税乘数的结果进行比较。如果读者的兴趣是了解这些不同的其他可能值告诉了我们什么，那么关注点估计以及它是否在统计学上显著不等于零是错误的。
三、当零值是相关空值时
我们可以更深入地探讨这个观点。即使当问题是参数是否为零时，关注点估计和统计显著性也是有问题的。考虑一篇论文，它只报告估计值与零有很大不同，或者p值小于某个核心水平，例如0.05或0.01。这样的方法很少传达t统计量是仅略高于或适度高于2(例如，2.1%，对应于p=0.036，)，还是远远高于2(例如，4.0%，对应于p=0.0001)。这两种情况对于参数为零的假设有完全不同的含义。原因如下。
首先，不考虑估计和标准误差，2.1或2.6的t统计量仅仅是反对零值的有力证据，而4.0的t统计量则是压倒性的证据。
其次，虽然较小的t统计量提供了反对零值的有力证据，但它们只提供了反对比点估计值更接近于零的值的温和证据。在许多情况下，这意味着较小的t统计量仅针对经济上较小的参数值提供适度的证据。
第三，至关重要的是，估计和标准误差很少会没有问题或不让人担忧。可能认为存在一些偏差，因此无偏估计比点估计更接近于零。可能担心标准误差被低估了。可能担心外部有效性；也就是说，可能有一些因素表明正在研究的情况是不寻常的，因此在最相关的情况下，最好的估计又一次比点估计更接近于零。而且存在报道和发表偏差的可能性，因此结果比对这个问题典型检查的发现会更极端。
总而言之，虽然略高于2的t统计量提供了反对空值为零的强有力的证据，但上面提到的顾虑可以容易地将这些确凿的证据变得不那么有力。然而，如果一项研究的计量经济学没有什么重大的可识别的问题，他们就不太可能把远高于2的t统计量提供的反对零值的证据变的更弱。
四、可能的替代方案
讨论实证结果的常见方法往往遗漏了关于结果意义的重要信息。一般而言，解决这一遗漏问题很简单。我们需要的是这些结果对假设的影响的信息。提供这些信息的方式多种多样，报告和讨论置信区间是一种很自然的方式。与报告点估计以及它是否在统计上显著不同于零相比，报告置信区间提供了有关参数可能值的全部范围的信息。
尽管报告和讨论置信区间通常会比通常的方法传达更多研究发现意义的信息，但这留下了一个小的问题，即哪个置信区间是最佳选择。显然不是通常的2个标准误差间隔。解释置信区间的一种捷径是，结果提供了反对区间外参数值的有力证据，并且基本上同样支持区间内的所有值。但当这种捷径解释应用于2个标准误差置信区间(或者，几乎等同于95%的区间)时，它会导致与结果相关的不确定感被夸大。即使两个值都在置信区间内，结果也比边界上的值更支持点估计。
应用于通常置信区间的标准捷径解释产生了一种夸大的不确定感，这可能是研究人员倾向于不报告置信区间的一个原因。
要获得报告置信区间的优点而没有捷径解释造成的缺点，一种方式是报告比通常的2个标准误差带稍窄的区间。由于一些论文已经报告了90%(1.645个标准误差)的波段，它们似乎是传统的2个标准误差波段的最自然的替代。有了90%的区间，对于最初认为点估计和区间边界处的值可能性相等的研究人员来说，事后点估计的可能性大约是边界处的值的四倍(而不是七倍)。
更好的做法是同时报告论文关键估计的1个标准误差和2个标准误差范围。一位始于扁平先验的研究人员会认为，点估计只比1个标准误差范围内的其他值略高一些(具体地说，远远低于两倍的可能性)。因此，在这种情况下，自然且大致正确的捷径解释是，结果为1个标准误差区间内不同值的相对优点基本没有提供信息，为点估计的2个标准误差区间而不是1个标准误差区间中的值提供了适度的证据，并且针对相对于点估计的2个标准误差带之外的值提供了强有力的证据。
五、结论
考虑两篇估计政府购买乘数的论文。在这两种情况下，点数估计都是3.0。在一种情况下，标准误差是1.3，而在另一种情况下，标准误差是0.7。按照目前讨论实证结果的通常方法，这两篇论文将用相似的术语描述他们的发现。两人都会注意到，这一估计在统计上具有重要意义，并将重点放在对乘数为3的经济解释上。然而，事实上，对于经济学家感兴趣的乘数的大多数问题，这两个结果的影响将截然不同。随着对置信区间的强调，论文的讨论将反映出这些差异。获得1.3的标准误差(意味着1的标准误差置信区间为(1.7，4.3)和2的标准误差区间为(0.4，5.6))的人将和以前一样观察到乘数为零的假设被拒绝。但它持续强调，估计并不是非常精确：结果几乎没有提供证据反对乘数的较常规值，如1.8，只有温和的证据反对乘数为1或略低于1，以及非常有力但不是压倒性的证据反对乘数为0。相反，标准误差为0.7(因此1标准误差置信区间为(2.3，3.7)和2标准误差区间为(1.6，4.4))的论文将观察到，乘数为零的假设不仅被拒绝，而且被压倒性地拒绝。它还指出，这些结果提供了相当有力的证据来反对1和1以下的值，而且它们甚至提供了适度有力的证据来反对最近在1.8附近的估计。
本文的观点是，这些问题并不是这两篇论文所特有的，而是具有共性的。由于参数值为零很少是唯一令人感兴趣的，关注统计意义和点估计通常会遗漏有关研究结果含义的重要信息。在经济学中，报告和讨论置信区间可能会有相当大的价值：报告论文重点估计的置信区间并简要讨论其关键影响的做法只略微增加了论文的长度，但往往会大大增加关于研究结果的经济影响所传达的信息量。
下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。
2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

Java