Disciplina do curso de Ciência da Computação CEFETRJ, ministrada pelo professor Pedro Gonzalez
Indicam o ponto central
1 - Média:
Dados populacionais:
$ \mu = \frac{\sum(x_i)}{N} $
Dados amostrais:
$ \overline{x} = \frac{\sum(x_i)}{n} $
$ \overline{x} = \frac{\sum(x_i \cdot F_i)}{n} $
Propriedade importante, a soma dos desvios é zero:
$ \sum(x_i - \overline{x}) = 0 $
A média é afetada por valores discrepantes/extremos.
2 - Mediana:
Os dados precisam estar em rol (ordenados).
Dados populacionais:
$ p = 0.5(n + 1) $
n é o tamanho da coluna
$ Md = X{l_p} + F_p(X_{lp + 1} - X*{l_p}) $
lp é a parte inteira de p e Fp é a parte decimal.
$ X{l_p} $
é o índice lp
Dados amostrais:
$ p = \frac{n}{2} $
$ Md = li + \frac{h(p - F{ai - 1})}{F_i} $
É utilizado o indice i tal que Fai >= p
3 - Moda:
Para dados populacionais é o elemento que mais aparece da variável.
Dados amostrais:
$ Mo = l_i + \frac{h(F_i - F{i - 1})}{(Fi - F{i - 1}) + ((Fi - F{i + 1}))} $
É utilizado o indice i tal que max(Fi), ou seja, maior frequência absoluta (classe modal).
Os dados podem também ser amodal (observações/tuplas/linhas/samples com mesma frequencia absoluta Fi) e plurimodal (várias observações com frequências iguais).
Os dados devem estar em rol, "25% dos dados são menores ou iguais ao primeiro quartil Q1".
Dados populacionais
$ p = 0.25(n + 1) $
$ Q1 = X{lp} + F_p(X{l*{p + 1}} - X*{l_p}) $
Exemplo quadragesimo decil ($ p = 0.40(n + 1)
Para Q2 e Q3 são usados 0.5 e 0.75 em vez de 0.25 no cálculo do p, respectivamente.
Dados amostrais:
Para o calculo do p divide n por 4 para os quartis, por 10 para os decis e 100 para os percentis. Para o valor de k, se por exemplo se deseja o terceiro quartil, k = 3.
$ p = \frac{n}{4} \cdot k $
$ Md = li + \frac{h(p - F{ai - 1})}{F_i} $
É utilizado o indice i tal que Fai >= p
Q2 = D5 = P50 = Md
Indicam se os dados estão ou não próximos uns dos outros. É necessário pelo menos uma medida de tendencia central e uma de dispersão para descrever os dados, visto que a média em dados sem variação e com variação muito grande (pois a média não será uma medida de tendencia central representativa).
Amplitude total:
$ AT = max(data$var) - min(data$var) $
Amplitude interquartílica e semi-interquartílica:
$ dq = Q_3 - Q_1 $
$ dqm = \frac{Q_3 - Q_1}{2} $
Desvio médio e variância:
$ D_m = \frac{\sum(|x_i - \mu|)}{N} $
$ \sigma^2 = \frac{\sum(x_i - \mu)^2}{N} $
Notação para dados amostrais:
$ D_m = \frac{\sum(|x_i - \overline{x}| \cdot F_i)}{n} $
$ s^2 = \frac{\sum(x_i - \overline{x})^2 \cdot F_i}{n - 1} $
Note que a variância lembra bastante a função de custo MSE (Mean squared error). É uma função contínua e diferenciável.
Desvio padrão:
É a raiz quadrada da Variância. Para dados populacionais a notação é sigma e para amostrais é s.
Coeficiente de Variação:
Útil para verificar homogeneidade dos dados. Caso o coeficiente seja maior que 50% a distribuição é altamente dispersa (heterogênea). Se for menor que 50% a média é uma medida representativa. Média tendendo a 0 torna esse coeficiente inútil.
$ CoefV = \frac{\sigma}{\mu} $ ou $ CoefV = \frac{s}{\overline{x}} $
Indica a forma de distribuição dos dados
Coeficiente de assimetria de Pearson (As)
$ As = \frac{\mu - M_o}{\sigma} $ ou $ As = \frac{\overline{x} - M_o}{s} $
Distribuição é simétrica se média == mediana == moda ou As == 0.
Se média <= mediana <= moda ou As < 0 é assimétrica negativa. Isso significa que a cauda está à esquerda da distribuição (left skewed).
Se média >= mediana >= moda ou As > 0 é assimétrica positiva. Isso significa que a cauda está à direita da distribuição (right skewed).
A medida de Curtose indica o grau de achatamento e quantifica a concentração ou dispersão dos dados:
$ K = \frac{Q3 - Q_1}{2(P{90} - P_{10})} $
se K < 0.263 a distribuilção é leptocúrtica (concentração no centro). se K = 0.263 a distribuilção é mesocúrtica (razoavelmente no centro). se K > 0.263 a distribuilção é platicúrtica (dist. aberta, não concentrado no centro).
- Limite inferior Li (Li = Q1 - 1.5dq)
- Q1
- Mediana
- Q3
- Limite superior Ls (Ls = Q3 + 1.5dq)
Dados inferiores ou superiores ao Li e Ls sção outliers. No intervalo interquartílica existe 50% dos dados, 25% entre Q1 e Md e 25% entre Md e Q3.
Cada linha a esquerda ou direita da caixa mais os outliers contem 25% dos dados. Caso a caixa do boxplot esteja mais próximo dos valores menores, a distribuição é right skewed, pois a cauda estará na direita (assimetria positiva), indicando que os dados dispersam para valores maiores.