Resolução do Exercício de Estatística
A questão apresenta um conjunto de dados sobre a duração da internação de recém-nascidos em um hospital. O objetivo é analisar essas medidas de tendência central e dispersão, identificando se há valores extremos (outliers) e como eles afetam os resultados.
(a) Cálculo da Média, Moda e Mediana
Primeiramente, organizamos os dados para facilitar os cálculos. Temos um total de 47 observações ($N=47$).
| Valor ($x$) | Frequência ($f$) | Frequência Acumulada |
|---|
| 1 | 3 | 3 |
| 2 | 10 | 13 |
| 3 | 13 | 26 |
| 4 | 9 | 35 |
| 5 | 6 | 41 |
| 6 | 1 | 42 |
| 7 | 2 | 44 |
| 8 | 1 | 45 |
| 15 | 1 | 46 |
| 21 | 1 | 47 |
| Total | 47 | |
1. Média Aritmética ($\bar{x}$)
A média é a soma de todos os valores dividida pelo número total de observações.
$$ \text{Soma} = (1\times3) + (2\times10) + (3\times13) + (4\times9) + (5\times6) + 6 + (7\times2) + 8 + 15 + 21 $$
$$ \text{Soma} = 3 + 20 + 39 + 36 + 30 + 6 + 14 + 8 + 15 + 21 = 192 $$
$$ \bar{x} = \frac{192}{47} \approx 4,09 \text{ dias} $$
2. Moda ($M_o$)
A moda é o valor que aparece com maior frequência.
O valor 3 aparece 13 vezes, sendo o mais frequente.
$$ M_o = 3 \text{ dias} $$
3. Mediana ($M_d$)
A mediana divide o conjunto ordenado ao meio. Para $N=47$, a posição é $(47+1)/2 = 24^{ª}$ posição.
Pela frequência acumulada:
- Até o valor 2, temos 13 observações.
- Até o valor 3, temos 26 observações.
Portanto, a 24ª observação é 3.
$$ M_d = 3 \text{ dias} $$
(b) Determinação do Desvio Padrão
Para calcular o desvio padrão amostral ($S$), utilizamos a fórmula:
$$ S = \sqrt{\frac{\sum (x_i - \bar{x})^2}{N-1}} $$
Calculamos primeiro a soma dos quadrados ($\sum x^2$):
$$ \sum x^2 = (1^2\times3) + (2^2\times10) + (3^2\times13) + (4^2\times9) + (5^2\times6) + 6^2 + (7^2\times2) + 8^2 + 15^2 + 21^2 $$
$$ \sum x^2 = 3 + 40 + 117 + 144 + 150 + 36 + 98 + 64 + 225 + 441 = 1318 $$
Aplicamos a fórmula simplificada da variância:
$$ S^2 = \frac{\sum x^2 - \frac{(\sum x)^2}{N}}{N-1} = \frac{1318 - \frac{192^2}{47}}{46} $$
$$ S^2 = \frac{1318 - 784,34}{46} = \frac{533,66}{46} \approx 11,60 $$
$$ S = \sqrt{11,60} \approx 3,41 \text{ dias} $$
(c) Identificação de Valores Excepcionais (Outliers)
Utilizamos o método do Intervalo Interquartil (IQR) para identificar outliers.
- Quartis:
- $Q_1$ (posição 12): Valor 2.
- $Q_3$ (posição 36): Valor 5.
- IQR: $Q3 - Q1 = 5 - 2 = 3$.
- Limites:
- Limite Superior = $Q_3 + 1,5 \times IQR = 5 + 4,5 = 9,5$.
- Limite Inferior = $Q_1 - 1,5 \times IQR = 2 - 4,5 = -2,5$.
Os valores 15 e 21 estão acima do limite superior (9,5), logo são considerados valores excepcionais.
Recálculo sem os outliers (removendo 15 e 21):
Novo $N = 45$. Nova Soma = $192 - 15 - 21 = 156$.
- Nova Média: $\frac{156}{45} \approx 3,47$ dias.
- Nova Mediana: Posição 23ª. Continua sendo 3 dias.
- Nova Moda: Continua sendo 3 dias.
- Nova Desvio Padrão:
- Novo $\sum x^2 = 1318 - 225 - 441 = 652$.
- Nova Variância $S^2 = \frac{652 - \frac{156^2}{45}}{44} = \frac{652 - 540,8}{44} \approx 2,53$.
- Novo $S = \sqrt{2,53} \approx 1,59$ dias.
Comentário: A remoção dos valores extremos reduziu drasticamente a média (de 4,09 para 3,47) e o desvio padrão (de 3,41 para 1,59), indicando que os dados originais eram altamente dispersos devido a esses casos raros. A mediana permaneceu estável, demonstrando sua robustez.
(d) Medidas de Posição Mais Adequadas
Dentre as medidas calculadas, a Mediana seria a mais adequada para resumir esse conjunto de dados.
Justificativa:
- Assimetria: A distribuição é assimétrica à direita (positiva), puxada pelos valores altos de 15 e 21.
- Influência da Média: A média aritmética foi influenciada por esses valores extremos, superestimando a duração típica da internação (4,09 dias).
- Robustez da Mediana: A mediana (3 dias) representa melhor o comportamento da maioria dos pacientes, pois não é sensível a valores extremos. Para fins de planejamento hospitalar baseado na realidade da maioria, a mediana oferece uma estimativa mais segura e realista.