Bootstrapping

Aula 05 — Técnicas de Reamostragem
Análise de Dados Ambientais

Luiz Diego Vidal Santos

ROTEIRO DA AULA

Roteiro

1 O que é Bootstrapping e por que usar

2 Bradley Efron e a lógica da reamostragem

3 Como funciona passo a passo

4 Tipos de Bootstrap

5 Intervalos de Confiança Bootstrap

6 Bootstrap para Testes de Hipóteses

7 Bootstrap em Mediação

8 Aplicação em Dados Ambientais

O QUE É BOOTSTRAPPING

O Problema

Problema central: Como fazer inferência estatística quando…

A amostra é pequena (n < 30)?
Os dados não são normais?
Não existe fórmula analítica para o erro-padrão da estatística de interesse?

Solução clássica: Assumir normalidade, usar fórmulas paramétrica (Teste T, ANOVA…).

Solução Bootstrap: Usar os próprios dados como proxy da população e reamostrar milhares de vezes.

Bradley Efron (1979)

Bradley Efron propôs o bootstrap em 1979 (Stanford University)
Nome inspirado na expressão “pull yourself up by your bootstraps” (erguer-se pelos próprios cadarços)
Ideia fundamental: os dados amostrais contêm toda a informação necessária sobre a distribuição populacional

“A maior parte do que sabemos sobre a verdadeira distribuição de probabilidade vem dos dados amostrais. Portanto, vamos tratar os dados como um proxy da verdadeira distribuição.” — Efron (1979)

Artigo seminal:

Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics, 7(1), 1–26.

Revolutionou a estatística computacional, permitindo inferência sem suposições distribucionais.

Por que Bootstrap?

Situação	Método Clássico	Bootstrap
n = 150, dados normais	Teste T, ANOVA	Também funciona
n = 12, assimétrico	Problemático	Indicado
Mediana (sem fórmula de EP)	Não há fórmula	Indicado
Razão de médias	Complexo	Indicado
Coeficiente de mediação (a×b)	Distribuição desconhecida	Indicado

Regra prática: Bootstrap é especialmente útil quando a distribuição amostral da estatística é desconhecida ou complexa.

COMO FUNCIONA

Lógica da Reamostragem

flowchart LR
  A["Amostra Original<br>n observações"] --> B["Reamostra 1<br>(com reposição)"]
  A --> C["Reamostra 2<br>(com reposição)"]
  A --> D["...<br>B vezes"]
  A --> E["Reamostra B<br>(com reposição)"]
  B --> F["Estatística θ̂₁"]
  C --> G["Estatística θ̂₂"]
  D --> H["..."]
  E --> I["Estatística θ̂_B"]
  F --> J["Distribuição<br>Bootstrap de θ̂"]
  G --> J
  H --> J
  I --> J
  style A fill:#2135A6,color:#fff
  style J fill:#27368C,color:#fff
  style B fill:#586BA6,color:#fff
  style C fill:#586BA6,color:#fff
  style E fill:#586BA6,color:#fff

Passo a Passo

Algoritmo Bootstrap (não paramétrico):

Tenha a amostra original com \(n\) observações
Sorteie \(n\) valores com reposição → reamostra \(b\)
Calcule a estatística de interesse (média, mediana…)
Repita B vezes (1.000 a 10.000)
Resultado: distribuição empírica com B valores

Exemplo: Amostra = {2, 5, 8, 3, 7}

Reamostra	Valores	Média
1	{5, 2, 8, 2, 7}	4,80
2	{3, 3, 7, 8, 5}	5,20
3	{7, 5, 5, 2, 8}	5,40
5000	{8, 3, 7, 7, 2}	5,40

Com Reposição — Por quê?

Com reposição significa que cada observação pode ser selecionada mais de uma vez em cada reamostra.

Sem reposição: toda reamostra seria idêntica (mesmos valores, apenas reordenados)
Com reposição: cada reamostra é diferente — captura a variabilidade amostral

Cada observação tem probabilidade \(\approx 63\%\) de ser incluída:

\[P(x_i \in X^*) = 1 - \left(1 - \tfrac{1}{n}\right)^{\!n} \approx 0{,}632\]

~63,2% das observações aparecem em cada reamostra. Os ~36,8% restantes ficam de fora (out-of-bag) e podem ser usados para validação.

Quantas reamostras (B)?

Objetivo	B recomendado
Estimativa de viés/erro-padrão	200–500
IC percentil simples	1.000
IC BCa (corrigido)	2.000–5.000
Teste de hipóteses	5.000–10.000

Na prática: Use B = 5000 como padrão. Computadores modernos processam isso em segundos.

Efron & Tibshirani (1993) recomendam B ≥ 1000 para ICs e B ≥ 5000 para testes.

TIPOS DE BOOTSTRAP

Bootstrap Não Paramétrico vs Paramétrico

Aspecto	Não Paramétrico	Paramétrico
Reamostra de…	Dados observados	Distribuição estimada
Pressupostos	Nenhum distribucional	Assume distribuição (Normal, Poisson…)
Uso típico	Maioria das situações	Quando distribuição é conhecida
Software	R: `boot()`, SPSS	R: `boot()` com `sim="parametric"`

Bootstrap Paramétrico:

Estimar parâmetros (\(\mu, \sigma\)) da amostra
Gerar reamostras de \(N(\hat{\mu}, \hat{\sigma}^2)\)
Calcular \(\hat{\theta}^*_b\) em cada reamostra

Outros Tipos Especializados

flowchart TD
  B["Bootstrap"] --> NP["Não Paramétrico<br>Reamostra dos dados"]
  B --> P["Paramétrico<br>Reamostra da distribuição"]
  B --> R["Residual<br>Para regressão"]
  B --> W["Wild Bootstrap<br>Heterocedasticidade"]
  B --> BL["Block Bootstrap<br>Séries temporais"]
  style B fill:#2135A6,color:#fff
  style NP fill:#27368C,color:#fff
  style P fill:#586BA6,color:#fff
  style R fill:#586BA6,color:#fff
  style W fill:#C5CEE8,color:#0D0D0D
  style BL fill:#C5CEE8,color:#0D0D0D

Residual Bootstrap: Reamostra os resíduos do modelo de regressão.
Wild Bootstrap: Preserva a estrutura de heterocedasticidade.
Block Bootstrap: Para dados com dependência temporal (séries hidrológicas, climáticas).

INTERVALOS DE CONFIANÇA BOOTSTRAP

Método Percentil

O mais simples: usa os quantis da distribuição bootstrap.

\[IC_{95\%} = [\hat{\theta}^*_{(0{,}025)};\; \hat{\theta}^*_{(0{,}975)}]\]

Exemplo: 5000 reamostras → média bootstrap:

Ordene as 5000 médias e pegue:

Limite inferior = valor na posição 125 (2,5%)
Limite superior = valor na posição 4875 (97,5%)

Vantagem: Não assume normalidade da distribuição de \(\hat{\theta}\).

Limitação: Pode ter viés se a distribuição bootstrap for assimétrica.

Método BCa (Bias-Corrected and Accelerated)

Corrige dois problemas do método percentil:

Viés (\(z_0\)): proporção de réplicas bootstrap abaixo da estimativa original, convertida em escore Z
Aceleração (\(a\)): mede a assimetria da distribuição bootstrap (via jackknife)

Os percentis do IC são ajustados (não mais fixos em 2,5% e 97,5%):

\[IC_{BCa} = \left[\hat{\theta}^*_{(\alpha_1)};\; \hat{\theta}^*_{(\alpha_2)}\right]\]

Intuição: Se não há viés (\(z_0 = 0\)) nem assimetria (\(a = 0\)), o BCa equivale ao percentil simples.

Quanto maior o viés ou assimetria, maior o ajuste nos limites do IC.

Recomendação: BCa é o método preferido (Efron & Tibshirani, 1993).

Requer B ≥ 2000
R: boot.ci(type="bca")
SPSS: opção nativa

Comparativo dos Métodos de IC

Método	Viés	Assimetria	B mín.	Recomendado?
Percentil	Não corrige	Não corrige	1.000	Básico
Normal	Corrige	Não corrige	500	Se dados normais
BCa	Corrige	Corrige	2.000	Sim
Studentizado	Corrige	Corrige	5.000	Mais preciso, mas complexo

BOOTSTRAP PARA TESTES DE HIPÓTESES

Comparação de Dois Grupos

Exemplo: Teor de matéria orgânica do solo (g/kg) em duas condições de manejo.

Grupo	n	Média	DP
Plantio Convencional	12	18,3	5,2
Plantio Direto	12	24,7	6,8

Diferença observada: \(\bar{X}_{PD} - \bar{X}_{PC} = 6{,}4\) g/kg

Procedimento Bootstrap:

Combine os 24 valores em um “pool”
Sorteie 12 para “PC” e 12 para “PD” (sob H₀: sem diferença)
Calcule diferença de médias bootstrap
Repita 5000 vezes
p-valor = proporção de diferenças bootstrap ≥ 6,4

Resultado do Teste Bootstrap

Após 5000 reamostras sob H₀:

Diferença observada: 6,4 g/kg
IC 95% BCa: [1,8; 11,2] g/kg
p-valor bootstrap: 0,008

Interpretação: Como o IC 95% não inclui zero, rejeitamos H₀. O plantio direto apresenta teor de MOS significativamente maior (6,4 g/kg; IC 95%: 1,8–11,2; p = 0,008).

Comparação com Teste T clássico:

Método	Diferença	IC 95%	p
Teste T (supõe normalidade)	6,4	[1,5; 11,3]	0,013
Bootstrap BCa (livre)	6,4	[1,8; 11,2]	0,008

BOOTSTRAP EM MEDIAÇÃO

Análise de Mediação

Testa se a relação entre X e Y é parcialmente explicada por uma variável mediadora M.

flowchart LR
  X["X<br>Práticas Agroecológicas"] -->|"a = 0,12"| M["M<br>Qualidade do Solo"]
  M -->|"b = 0,60"| Y["Y<br>Produtividade"]
  X -->|"c' = 0,33"| Y
  style X fill:#2135A6,color:#fff
  style M fill:#586BA6,color:#fff
  style Y fill:#27368C,color:#fff

Efeito indireto: \(ab = 0{,}12 \times 0{,}60 = 0{,}072\)

Efeito total: \(c = c' + ab = 0{,}33 + 0{,}072 = 0{,}402\)

% mediação: \(\frac{ab}{c} = \frac{0{,}072}{0{,}402} = 17{,}9\%\)

Por que Bootstrap em Mediação?

O produto \(ab\) não tem distribuição normal, mesmo que \(a\) e \(b\) sejam normais individualmente (Sobel, 1982).

Solução: Bootstrap do efeito indireto (Preacher & Hayes, 2008).

Resultado Bootstrap (B = 5000):

\(ab\) = 0,072
IC 95% BCa: [−0,03; 0,11]
O IC inclui zero → mediação não significativa

Conclusão: A qualidade do solo não media significativamente a relação entre práticas agroecológicas e produtividade nesta amostra. O efeito das práticas na produtividade é predominantemente direto.

Mediação: Como Reportar

“A análise de mediação com bootstrap (B = 5000) indicou que o efeito indireto das práticas agroecológicas (X) na produtividade (Y) via qualidade do solo (M) foi de ab = 0,072 (IC 95% BCa: −0,03 a 0,11). Como o intervalo de confiança inclui zero, a mediação não foi estatisticamente significativa. O efeito total (c = 0,40) é predominantemente direto (c’ = 0,33).”

Software para Mediação Bootstrap:

Software	Comando/Plugin
R	`mediation::mediate()`, `lavaan`
SPSS	PROCESS macro (Hayes)
JASP	Structural Equation Modeling

APLICAÇÃO EM DADOS AMBIENTAIS

Exemplo: Diâmetro Médio Geométrico

Problema: Comparar DMG (diâmetro médio geométrico de agregados do solo) entre 3 manejos com amostras pequenas (n = 8 por grupo).

Manejo	n	DMG (mm)	EP
Convencional	8	1,23	0,31
Plantio Direto	8	2,87	0,52
Agrofloresta	8	3,41	0,48

Com n = 8, a ANOVA clássica é arriscada (poucos dados para verificar normalidade). O bootstrap resolve sem pressupostos.

Resultado Bootstrap: DMG

Bootstrap com B = 5000 reamostras, IC BCa:

Comparação	Diferença	IC 95% BCa	Significativo?
PD − Conv	1,64	[0,72; 2,51]	Sim
Agro − Conv	2,18	[1,28; 3,14]	Sim
Agro − PD	0,54	[−0,38; 1,52]	Não

Conclusão: Plantio Direto e Agrofloresta apresentam DMG significativamente superior ao Convencional, mas não diferem entre si.

Quando usar Bootstrap? Resumo

Critério	Usar Bootstrap	Não Necessário
Tamanho amostral	n < 30	n > 100 com normalidade
Normalidade	Violada ou não testável	Confirmada
Estatística	Sem fórmula de EP (mediana, razão)	Média, proporção
Mediação	Sempre (efeito indireto)	—
Dados ambientais	Séries curtas, extremos	Grandes bases

Vantagem principal: Inferência válida sem suposições distribucionais.

Limitação: Não cria informação — se a amostra é muito pequena (n < 5), o bootstrap também será limitado.

Referências Essenciais

Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics, 7(1), 1–26.
Efron, B., & Tibshirani, R. J. (1993). An Introduction to the Bootstrap. Chapman & Hall.
Preacher, K. J., & Hayes, A. F. (2008). Asymptotic and resampling strategies for assessing and comparing indirect effects. Behavior Research Methods, 40(3), 879–891.
Davison, A. C., & Hinkley, D. V. (1997). Bootstrap Methods and Their Application. Cambridge University Press.

Obrigado!

Prof. Luiz Diego Vidal Santos

UEFS — Universidade Estadual de Feira de Santana

ldvsantos@uefs.br