Git Product home page Git Product logo

estatistica's Introduction

Estatística e Probabilidade

Disciplina do curso de Ciência da Computação CEFETRJ, ministrada pelo professor Pedro Gonzalez

Medidas descritivas

Medidas de Tendência Central:

Indicam o ponto central

1 - Média:

Dados populacionais:

$ \mu = \frac{\sum(x_i)}{N} $

Dados amostrais:

$ \overline{x} = \frac{\sum(x_i)}{n} $

$ \overline{x} = \frac{\sum(x_i \cdot F_i)}{n} $

Propriedade importante, a soma dos desvios é zero:

$ \sum(x_i - \overline{x}) = 0 $

A média é afetada por valores discrepantes/extremos.

2 - Mediana:

Os dados precisam estar em rol (ordenados).

Dados populacionais:

$ p = 0.5(n + 1) $

n é o tamanho da coluna

$ Md = X{l_p} + F_p(X_{lp + 1} - X*{l_p}) $

lp é a parte inteira de p e Fp é a parte decimal.

$ X{l_p} $

é o índice lp

Dados amostrais:

$ p = \frac{n}{2} $

$ Md = li + \frac{h(p - F{ai - 1})}{F_i} $

É utilizado o indice i tal que Fai >= p

3 - Moda:

Para dados populacionais é o elemento que mais aparece da variável.

Dados amostrais:

$ Mo = l_i + \frac{h(F_i - F{i - 1})}{(Fi - F{i - 1}) + ((Fi - F{i + 1}))} $

É utilizado o indice i tal que max(Fi), ou seja, maior frequência absoluta (classe modal).

Os dados podem também ser amodal (observações/tuplas/linhas/samples com mesma frequencia absoluta Fi) e plurimodal (várias observações com frequências iguais).

Medidas Separatrizes

Os dados devem estar em rol, "25% dos dados são menores ou iguais ao primeiro quartil Q1".

Dados populacionais

$ p = 0.25(n + 1) $

$ Q1 = X{lp} + F_p(X{l*{p + 1}} - X*{l_p}) $

Exemplo quadragesimo decil ($ p = 0.40(n + 1) $) e nonagesimo nono percentil ($ p = 0.99(n + 1) $). Mesma fórmula porém em vez de ser escrito como Q1 é escrito como D40 e P99.

Para Q2 e Q3 são usados 0.5 e 0.75 em vez de 0.25 no cálculo do p, respectivamente.

Dados amostrais:

Para o calculo do p divide n por 4 para os quartis, por 10 para os decis e 100 para os percentis. Para o valor de k, se por exemplo se deseja o terceiro quartil, k = 3.

$ p = \frac{n}{4} \cdot k $

$ Md = li + \frac{h(p - F{ai - 1})}{F_i} $

É utilizado o indice i tal que Fai >= p

Q2 = D5 = P50 = Md

Medidas de Dispersão

Indicam se os dados estão ou não próximos uns dos outros. É necessário pelo menos uma medida de tendencia central e uma de dispersão para descrever os dados, visto que a média em dados sem variação e com variação muito grande (pois a média não será uma medida de tendencia central representativa).

Amplitude total:

$ AT = max(data$var) - min(data$var) $

Amplitude interquartílica e semi-interquartílica:

$ dq = Q_3 - Q_1 $

$ dqm = \frac{Q_3 - Q_1}{2} $

Desvio médio e variância:

$ D_m = \frac{\sum(|x_i - \mu|)}{N} $

$ \sigma^2 = \frac{\sum(x_i - \mu)^2}{N} $

Notação para dados amostrais:

$ D_m = \frac{\sum(|x_i - \overline{x}| \cdot F_i)}{n} $

$ s^2 = \frac{\sum(x_i - \overline{x})^2 \cdot F_i}{n - 1} $

Note que a variância lembra bastante a função de custo MSE (Mean squared error). É uma função contínua e diferenciável.

Desvio padrão:

É a raiz quadrada da Variância. Para dados populacionais a notação é sigma e para amostrais é s.

Coeficiente de Variação:

Útil para verificar homogeneidade dos dados. Caso o coeficiente seja maior que 50% a distribuição é altamente dispersa (heterogênea). Se for menor que 50% a média é uma medida representativa. Média tendendo a 0 torna esse coeficiente inútil.

$ CoefV = \frac{\sigma}{\mu} $ ou $ CoefV = \frac{s}{\overline{x}} $

Medidas de Assimetria e Curtose

Indica a forma de distribuição dos dados

Coeficiente de assimetria de Pearson (As)

$ As = \frac{\mu - M_o}{\sigma} $ ou $ As = \frac{\overline{x} - M_o}{s} $

Distribuição é simétrica se média == mediana == moda ou As == 0.

Se média <= mediana <= moda ou As < 0 é assimétrica negativa. Isso significa que a cauda está à esquerda da distribuição (left skewed).

Se média >= mediana >= moda ou As > 0 é assimétrica positiva. Isso significa que a cauda está à direita da distribuição (right skewed).

A medida de Curtose indica o grau de achatamento e quantifica a concentração ou dispersão dos dados:

$ K = \frac{Q3 - Q_1}{2(P{90} - P_{10})} $

se K < 0.263 a distribuilção é leptocúrtica (concentração no centro). se K = 0.263 a distribuilção é mesocúrtica (razoavelmente no centro). se K > 0.263 a distribuilção é platicúrtica (dist. aberta, não concentrado no centro).

Boxplot

  • Limite inferior Li (Li = Q1 - 1.5dq)
  • Q1
  • Mediana
  • Q3
  • Limite superior Ls (Ls = Q3 + 1.5dq)

Dados inferiores ou superiores ao Li e Ls sção outliers. No intervalo interquartílica existe 50% dos dados, 25% entre Q1 e Md e 25% entre Md e Q3.

Cada linha a esquerda ou direita da caixa mais os outliers contem 25% dos dados. Caso a caixa do boxplot esteja mais próximo dos valores menores, a distribuição é right skewed, pois a cauda estará na direita (assimetria positiva), indicando que os dados dispersam para valores maiores.

estatistica's People

Contributors

nietocurcio avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.