Bootstrap 方法是用于估计预测统计值或其他样本数据的可靠性或准确率的一项简单技术。传统方法依靠数学公式来描述样本统计值的准确率。当统计值的抽样分布不是正态分布或者不易查明时,这些传统方法难以使用或者无效。
Bootstrap 方法通过以下方式来分析统计值样本:重复对数据进行抽样,然后用来自每个抽样的不同统计值创建分布。术语 Bootstrap 来自于谚语 "pull oneself up by one’s own bootstraps"(通过拔自己的鞋带把自己提起来),因为此方法使用统计值本身的分布来分析统计值的准确率。
一次模拟法 - 只模拟一次模型数据(创建原始样本),然后重复地对这些模拟试验(原始样本值)进行重新抽样。重新抽样将在原始样本的基础上通过替换创建新样本。也就是说,它在选择另一个值之前将所选的值返回到样本,从而使选择器可以重新选择同一个值。然后,它将创建从每次重新抽样计算得到的统计值的分布。此方法只假定原始模拟数据准确描绘出了真实的预测分布,在样本足够大时这有可能实现。此方法不如多次模拟法准确,但是它运行所需的时间也少得多。
多次模拟法 - 重复对模型进行模拟,然后创建来自每次模拟的统计值的分布。此方法比一次模拟法更为准确,但是它可能要花费多得惊人的时间量。
因为 Bootstrap 技术不假定抽样分布是正态分布的,因此您可以使用它来估计任何统计值的抽样分布,甚至是非常规统计值(例如预测的最小或最大值)的抽样分布。您还可以轻松地估计复杂统计值(例如两个数据集的相关系数)或统计值的组合(例如平均值与方差之比)。