- README
- PROFISSIONAL BÁSICO - CIÊNCIA DE DADOS
- I - MATEMÁTICA:
- II - PROBABILIDADE E ESTATÍSTICA:
- III - FINANÇAS QUANTITATIVAS:
- IV- DADOS E BASES DE DADOS:
- V - GESTÃO DE PROJETOS DE CIÊNCIA DE DADOS:
- VI - QUALIDADE E PREPARAÇÃO DE DADOS:
- VII - MODELAGEM:
- 1. Pipeline de treinamento de modelos e suas etapas.
- 2. Otimização de hiperparâmetros:
- 3. Métricas para avaliação e seleção de modelos:
- 4. Técnicas de regularização:
- 5. Dados desbalanceados:
- 6. Validação de Modelos:
- 7. Modelagem de IA centrada em dados (data-centric).
- 8. Interpretabilidade de modelos:
- 9. Implantação de modelos em produção:
- 10. Monitoramento de modelos:
- VIII - CLASSES DE MODELOS:
- 1. Redução de dimensionalidade:
- 2. Técnicas de clusterização:
- 3. Técnicas de classificação:
- 4. Introdução à regressão:
- 5. Ensembling de modelos:
- 6. Sistemas de recomendação:
- 7. Modelos de séries temporais:
- 8. Tópicos em regressão:
- 9. Introdução a modelos causais:
- 10. Redes neurais:
- 11. Modelos de aprendizado por reforço:
- 12. Visão Computacional:
- 13. Modelos multi-modais:
- 14. Quantificação de incertezas em modelos preditivos:
- IX - PROCESSAMENTO DE LINGUAGEM NATURAL (NLP):
- X - PROGRAMAÇÃO E FERRAMENTAS:
- XI - VISUALIZAÇÃO;
- XII - GOVERNANÇA E SEGURANÇA DE DADOS:
- XIII - GOVERNANÇA, SEGURANÇA E APLICAÇÃO RESPONSÁVEL DE IA:
Este repositório é dedicado à organização e compartilhamento de arquivos e diretórios com conteúdo valioso sobre Ciência de Dados, Linguagem de programação Python e afins. Aqui, você encontrará uma variedade de recursos, incluindo datasets, notebooks Jupyter, scripts Python, e documentações que servem como uma base de conhecimento para entusiastas e profissionais da área.
O principal objetivo deste repositório é fornecer uma estrutura clara e eficiente para armazenar e acessar informações relacionadas à Ciência de Dados e afins. Busco facilitar a aprendizagem e o desenvolvimento de projetos, promovendo a colaboração e o compartilhamento de conhecimento.
Contribuições são sempre bem-vindas! Se você deseja contribuir com o repositório, por favor, siga as diretrizes de contribuição listadas abaixo:
- Faça um fork do repositório.
- Crie uma branch para sua feature ou correção de bugs.
- Envie um pull request com uma descrição clara das mudanças propostas.
Agradecemos o seu interesse e apoio ao nosso repositório de Ciência de Dados!
- funções;
- limites;
- derivadas;
- derivadas parciais;
- máximos e mínimos; integrais.
- vetores e matrizes;
- operações com vetores e matrizes;
- tipos de matrizes;
- transformações lineares;
- espaços e subespaços vetoriais de Rn;
- sistemas de equações lineares;
- normas (L1, L2, infinita, p-generalizada, Minkowksi e Chebyshev), autovalores e autovetores;
- decomposição matricial (Cholesky e Singular Value Decomposition (SVD)).
- programação linear inteira e mista;
- problemas de otimização unidimensionais e multidimensionais, com e sem restrições;
- otimização convexa;
- programação dinâmica.
- definições básicas de probabilidade;
- axiomas;
- probabilidade condicional.
- variáveis aleatórias;
- funções de probabilidade;
- principais distribuições discretas e contínuas (Uniforme, Binomial, Normal, Poisson, Bernoulli e Exponencial).
- medidas de tendência central (média, mediana e moda);
- medidas de dispersão (variância, desvio padrão e amplitude);
- medidas de posição (percentis e quartis).
- independência de eventos;
- teorema de Bayes;
- teorema da probabilidade total;
- lei dos grandes números;
- teorema central do limite.
- distribuição amostral da média;
- distribuição amostral da proporção;
- distribuição qui-quadrado;
- distribuição t de Student;
- distribuição F.
- estimação pontual e intervalar;
- intervalos de confiança;
- testes de hipóteses (formulação, tipos de erros, e poder do teste);
- testes z e t para médias;
- testes de proporções;
- testes qui-quadrado para independência e ajuste de Goodness-of-Fit;
- teste A/B.
- correlação e causalidade;
- correlação de Pearson;
- correlação de Spearman;
- correlação parcial.
- distribuições a priori e a posteriori;
- estimativa pontual e intervalar;
- predição e testes de hipóteses bayesianos;
- critérios de seleção de modelos;
- métodos MCMC.
- Convenções de Cálculo de Juros;
- Valor Presente Líquido;
- Taxa Interna de Retorno;
- projeção de fluxos de caixa futuros.
- Instrumentos de Renda Fixa;
- Taxa Spot;
- Taxa Foward;
- Relações Básicas de Não Arbitragem no Mercado de Juros;
- Curvas de Juros;
- Bootstraping de Curvas de Juros;
- Duration;
- Convexidade;
- técnicas de interpolação de taxas de juros;
- modelos de Svenson e de Nelson-Siegel.
- Volatilidade;
- Value At Risk;
- Conditional Value at Risk;
- Backtesting de Modelos de Risco;
- Maximum Drawdown;
- Sharpe Ratio;
- Information Ratio.
- modelo de média-variância com e sem restrições;
- modelos de paridade de riscos;
- modelos de paridade de riscos hierárquica (HRP).
- principais aplicações em precificação e análise de riscos.
- conceitos gerais;
- derivativos de renda variável;
- derivativos de renda fixa;
- modelo de Black-Scholes.
- o que são dados;
- processos geradores de dados;
- tipos e classes de dados;
- formatos de arquivos de dados comuns (txt, csv, xlsx, xml, json e parquet).
- o que são bases de dados;
- tipos de bases de dados;
- metadados;
- tidy data.
- armazenamento de arquivos;
- principais estruturas de armazenamento de dados analíticos (data warehouse, data mart, data lake data lakehouse, vector stores), suas diferenças conceituais e casos de uso;
- armazenamento na nuvem.
- definição de SGBD;
- principais funções;
- principais tipos de SGBDs (SQL e NoSQL) e suas diferenças; transações e índices.
- modelo de entidade-relacionamento (ER);
- modelo relacional:
- tabelas,
- esquemas,
- chaves,
- consultas;
- dados estruturados, semiestruturados e não estruturados;
- modelo chave-valor;
- modelo colunar;
- modelo orientado a documentos;
- modelo orientado a grafos.
- definição de ingestão em lote (batch) e em tempo real (stream).
- conceito de big data;
- conceitos gerais sobre técnicas e ferramentas para lidar com grandes volumes de dados (Spark, Hadoop, HDFS e MapReduce).
- CRISP-DM;
- Microsoft Team Data Science Process (TDSP);
- princípios de métodos ágeis (Scrum/Kanban);
- fundamentos de design thinking.
- a sua importância para avaliação da qualidade de dados;
- linhagem de dados;
- fontes comuns de dados (internas e externas);
- interface de programação de aplicação (API);
- técnicas de web scraping.
- valores ausentes;
- duplicatas;
- outliers;
- desbalanceamento;
- erros de imputação.
- técnicas de tratamento e limpeza de dados;
- técnicas detecção de vieses;
- data profiling.
- técnicas de normalização e padronização;
- discretização;
- metodologias de codificação de variáveis categóricas (encoding).
- processos para enriquecimento de dados, com criação e seleção de features relevantes;
- transformações matemáticas e estatísticas comuns em variáveis.
- técnicas de amostragem;
- divisão entre treinamento, validação e teste;
- abordagens para cross-validation.
- grid search;
- random search;
- algoritmos de otimização avançados;
- automl;
- autotuning;
- autofeature engineering.
- métricas para regressão (MSE; RMSE; MAE; R²; R² ajustado);
- métricas para classificação (accuracy, precision, recall, F1-score e ROC-AUC);
- análise de matriz de confusão;
- trade-off entre viés e variância;
- detecção de overfitting e underfitting.
- lasso;
- ridge;
- elastic net;
- dropout;
- early stopping;
- batch normalization.
- técnicas para lidar com dados desbalanceados;
- oversampling;
- undersampling;
- dados sintéticos;
- ajuste de pesos.
- K-fold cross-validation;
- leave-one-out cross-validation;
- bootstrap.
- feature importance;
- valores de Shapley (SHAP) e LIME.
- exportação de modelos (pickle, PMML e ONNX);
- modelos como serviço (APIs; microsserviços);
- integração com sistemas existentes;
- APIs e serviços web;
- conceitos de MLOps;
- implantação local (on premise) e na nuvem.
- monitoramento de desempenho;
- data drift;
- concept drift;
- detecção de drifts;
- retreino e atualização de modelos.
- Principal Component Analysis (PCA);
- LDA;
- ICA;
- T-SNE;
- uso de autoencoders.
- K-Means;
- agrupamento hierárquico;
- Gaussian Mixture Models;
- DBSCAN.
- Regressão logística;
- K-Nearest Neighbors (KNN);
- Suport Vector Machines (SVM);
- Decision Trees (CART);
- classificadores Naive-Bayes (Binomial-Beta, Poisson-Gama, Normal-Normal);
- Florestas Aleatórias (Random Forest).
- regressão linear simples e múltipla;
- hipóteses clássicas, método dos mínimos quadrados, diagnóstico e avaliação de modelos de regressão (F-test, coeficiente de determinação, análise de resíduos e demais), testes de significância, intervalos de confiança, análise ANOVA, modelos não lineares (log-log, lin-log, log-lin e inverso).
- Bagging;
- boosting (AdaBoost, Gradient Boosting, XGBoost, LightGBM e CatBoost);
- stacking.
- Filtragem colaborativa (baseadas em usuários ou itens);
- filtragem baseada em conteúdo; sistemas híbridos;
- problemas comuns (cold start, escalabilidade, data sparsity).
- definição;
- componentes (tendência, sazonalidade, ciclos e ruído);
- autocorrelação e autocorrelação parcial;
- conceito e testes de estacionaridade;
- cointegração;
- modelos AR, ARMA e ARIMA;
- modelos de suavização exponencial;
- modelos de decomposição;
- modelos de regressão com variáveis temporais (ARIMAX).
- modelos de dados em painel;
- GLM;
- regressão espacial;
- regressão quantílica;
- regressão de Poisson;
- modelos VAR;
- ECM e GARCH.
- fundamentos de causalidade estatística, experimentos e quase-experimentos, desenho de descontinuidade de regressão, modelos de variáveis instrumentais, diferenças em diferenças, modelos de equações estruturais (SEM), métodos de pareamento.
- Introdução a Redes Neurais Artificiais (arquitetura, funções de ativação, treinamento, forward pass, backpropagation, loss functions, algoritmos de otimização, épocas, batch size e demais);
- embeddings;
- redes profundas (deep learning);
- Redes Neurais Convolucionais (CNNs) e Recorrentes (RNNs);
- LSTM;
- GRU;
- GAN;
- modelos multimodais.
- Q-Learning;
- Deep Q-Networks (DQN);
- Policy Gradient Methods;
- multi-armed bandit.
- técnicas de pré-processamento de imagem;
- OCR;
- segmentação e extração de características de imagens;
- detecção;
- segmentação e reconhecimento de objetos;
- classificação de imagens.
- principais aplicações.
- Programação Probabilística;
- Amostragem de Gibbs;
- Inferência Variacional;
- Hamiltonian Monte Carlo;
- Modelos de Markov Ocultos;
- Aprendizado Profundo Probabilístico;
- Conformal Prediction.
- limpeza;
- normalização;
- remoção de stop words;
- stemming;
- lematização e demais.
- N-grams;
- CBoW;
- FTD-IDF;
- word embeddings (Word2Vec, GloVe e demais) e document embeddings (Doc2Vec, BERT, ELMo e demais).
- latent dirichlet allocation (LDA);
- non-negative matrix factorization (NMF).
- modelos de linguagem tradicionais;
- redes neurais recorrentes;
- redes neurais convolucionais;
- transformers.
- classificação de texto;
- análise de sentimento;
- extração de informação (NER; REL);
- similaridade textual;
- sumarização de texto;
- rotulação de partes do discurso (POS-tagging) e tradução automática.
- geração de texto;
- question answering e diálogo conversacional;
- retrieval augmented generation (RAG);
- chatbots;
- extração estruturada de informações;
- agentes de IA (IA agents).
- sintaxe básica;
- operadores;
- variáveis;
- estruturas de dados (dataframes, listas, matrizes, dicionários e conjuntos);
- estruturas de controle de fluxo;
- funções;
- escopo;
- método;
- paralelização de rotinas;
- serialização e desserialização.
- Pandas (manipulação; limpeza; transformação e pré-processamento de dado);
- NumPy (operações de arrays);
- Matplotlib e Seaborn (visualização de dados);
- TensorFlow;
- Keras e PyTorch (redes neurais);
- Scikit-learn e XGBoost (aprendizado de máquina);
- NLTK e spaCy (processamento de linguagem natural);
- huggingface (LLM);
- PySpark (Big data);
- Beautiful Soup (web scraping);
- Streamlit (data apps).
- conceitos introdutórios;
- comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais).
- qualidade de código;
- testes automatizados;
- versionamento (Git).
- Jupyterhub e Jupyter Notebooks;
- linha de comando (navegação em diretórios, manipulação de arquivos e dados);
- gerenciamento de processos;
- configuração de ambientes e variáveis de ambiente;
- gerenciamento de pacotes Python (pip);
- ambientes virtuais Python.
- conexão e importação de dados;
- modelagem de dados;
- criação de medidas e colunas calculadas;
- visualizações e gráficos;
- interações entre visualizações;
- criação de relatórios e painéis.
- tabela;
- gráfico de barras;
- linhas;
- pizza;
- dispersão;
- histograma;
- área;
- boxplot;
- bolhas;
- radar;
- mapas cartográficos;
- mapa de calor.
- princípios de design de gráficos efetivos;
- principais conceitos de codificação visual;
- interatividade;
- acessibilidade em gráficos.
- técnicas para construção de interfaces e layout;
- abordagens para escolha de designs;
- organização de elementos visuais e gráficos;
- seleção de gráficos e visualizações;
- interatividades e drill-downs;
- acessibilidade.
- construção de narrativas visuais e contextualizações;
- componentes de um storytelling efetivo.
- princípios de comunicação corporativa;
- interpretação e apresentação de dados de resultados de análises e de insights.
- conceitos e objetivos da governança de dados;
- principais técnicas de qualidade e integridade de dados;
- princípios de privacidade e proteção a dados.
- conceitos e objetivos da governança de IA;
- gestão de riscos em IA;
- gestão de ciclo de vida de modelos.
- viés algorítmico;
- exposição de dados sensíveis;
- envenenamento de dados de treinamento;
- ataques adversariais;
- ataques de manipulação de modelos;
- roubo de modelos;
- ataque de inferência;
- alucinações.
- definição;
- ética;
- transparência;
- justiça e equidade;
- responsabilização;
- segurança cibernética;
- compliance regulatório.