通过 Bootstrap 工具估计数据准确率

Bootstrap 方法是用于估计预测统计值或其他样本数据的可靠性或准确率的一项简单技术。传统方法依靠数学公式来描述样本统计值的准确率。当统计值的抽样分布不是正态分布或者不易查明时,这些传统方法难以使用或者无效。

Bootstrap 方法通过以下方式来分析统计值样本:重复对数据进行抽样,然后用来自每个抽样的不同统计值创建分布。术语 Bootstrap 来自于谚语 "pull oneself up by one’s own bootstraps"(通过拔自己的鞋带把自己提起来),因为此方法使用统计值本身的分布来分析统计值的准确率。

此工具提供了两种 Bootstrap 方法:

注:

当使用多次模拟法时,此工具会暂时禁用使用相同的随机数序列选项。在统计文献中,一次模拟法也称为非参数 Bootstrap 方法,多次模拟法也称为参数 Bootstrap 方法。

图 9.10. Bootstrap 模拟法

此图显示了一次模拟法和多次模拟法

因为 Bootstrap 技术不假定抽样分布是正态分布的,因此您可以使用它来估计任何统计值的抽样分布,甚至是非常规统计值(例如预测的最小或最大值)的抽样分布。您还可以轻松地估计复杂统计值(例如两个数据集的相关系数)或统计值的组合(例如平均值与方差之比)。

要估计拉丁超立方统计值的准确率,必须使用多次模拟法。