Git Product home page Git Product logo

intro-r's Introduction

R pour Statistique et Science des Données

L'objectif de ces tutoriels, proposés sous forme de calepins (jupyter notebooks), est d'introduire les principaux concepts et fonctionnalités du langage R en insistant sur ceux indispensable au statisticien, maintenant data scientist. Syntaxe, objets et classes, fonctions graphiques, techniques de préparation (munging ou wrangling) des données puis leur analyse en enchaînant phases d'exploration et de modélisation ou apprentissage (machine / statistique). Des exemples plus détaillés sur des données spécifiques (en R et en python) sont proposés sur wikistat.fr ainsi que dans les autres dépôts de ce site. Les méthodes sont exposées dans les vignettes de wikistat.

Les documents sont des calepins (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Il suffit pour cela de cloner le dépôt dans son propre environnement GitHub ou de télécharger l'archive zippée.

Tutoriels d'initiation à R

Pourquoi R?

Le logiciel R sous licence GNU est facile à installer à partir de la page du CRAN ou d'un site miroir; ils contiennent toutes les ressources nécessaires à l'utilisateur de R, débutant ou expérimenté: fichiers d'installation, mises à jour, librairies, FAQ, newsletter, documentation... Il est le logiciel le plus utilisé de la communauté statistique académique et aussi de plus en plus dans les services R&D des entreprises industrielles en concurrence avec les logiciels commerciaux. Son utilisation nécessite un apprentissage à travers des tutoriels comme par exemple ceux de ce dépôt mais il est facile de démarrer à partir de quelques notions de base sur son utilisation; de Start-R.

Dans sa structure, R est un langage de programmation interprété d'une syntaxe voisine à celle du langage C et capable de manipuler des objets complexes sous forme de matrice, scalaire, vecteur, liste, facteur et aussi data frame. Proposant donc une programmation matricielle, il offre des fonctionnalités analogues à Matlab et dispose également d'une très riche librairie de quasiment toutes les procédures et méthodes statistiques de la littérature. Plus précisément, toutes les recherches récentes sont d'abord développées et diffusées à l'aide de ce logiciel par la communauté scientifique.

Environnements d'Utilisation

Il existe de nombreuses librairies (cf. Rcmdr) d'interface graphique par menu mais celles-ci sont contraignantes, trop limitées dans les choix et options, elles ne peuvent éviter une utilisation par lignes de commandes; autant s'y mettre tout de suite, c'est le choix fait ici.

Il existe également un environnement de programmation ou IDE*: RStudio relativement efficace; à l'utilisateur de faire ses choix.

La présentation des tutoriels privilégie assez unanimement le format des calepins (notebook) Jupyter qui autorisent une exécution automatique et offrent la capacité d'intégrer chronologiquement des résutlats numériques, graphiques, des commentaires, au sein du même fichier.

C'est l'outil à privilégier pour promouvoir et diffuser les analyses statistiques d'une recherche scientifique reproductible.

En résumé

  • Installer la dernière version de R

Puis au choix

  • Installer RStudio
  • Copier, coller ou entrer successivement les commandes des tutoriels,

OU

  • Installer Python
  • Installer le noyau IRkernel. Dans le salles du CSN de l'INSA, exécuter les commandes suivantes après avoir ouvert R dans un terminal (pas Rstudio):
    R
    install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))
    library(devtools)
    withr::with_libpaths(new = "~/R/libs/", install_github('IRkernel/IRkernel'))
    IRkernel::installspec()
    quit() # quitter R
    jupyter notebook

Dans les deux cas

  • Exécuter les cellules en analysant syntaxe et résultats
  • Répondre aux questions, faire les exercices proposés

intro-r's People

Contributors

philbesse avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.