Git Product home page Git Product logo

if29_projet's Introduction

IF29 - Détection des profils ‘influenceurs’ sur Twitter

Contexte du projet

Ce rapport présente le travail effectué par le groupe 5 pour le projet de l’UE IF29 - Traitement de données (Data Analytics). L’objectif de ce projet est d’implémenter sur un même dataset et pour une même problématique une approche non supervisée et une approche supervisée et d’en faire le comparatif de Machine learning.

Objectif du projet

Le dataset en question est un ensemble de tweets et toutes leurs métadonnées ayant été posté entre le 14 juin 2018 et le 17 juin 2018 (les quatres premiers jours de la dernière coupe du monde de football). Mais que faire avec tous ces tweets ? Le but du projet est d’implémenter deux algorithmes de Machines Learning permettant la détection des profils profils twitter “atypique”. Ici pour le sens du mot “atypique” il faut comprendre “qui ne répond pas au type habituel” et non “que l'on peut difficilement classer”, le but du projet étant de déterminer cette classe grâce à des algorithmes de Machine Learning.

Notre approche

“Qui ne répond pas au type habituel”, est une définition qui peut englober beaucoup de profils twitter et cela pour un grand nombre de raisons. Pour ne pas nous disperser et pouvoir identifier ces profils “atypiques” rapidement et sans ambiguïtés, nous avons décidé de préciser quelque peu ce “atypique” en “influenceur”. Il sera donc question de détecter les leaders d’opinion de twitter, d’identifier les profils qui ont une influence sur les internautes qui le suivent et sur leurs décisions (d’achat entre autres). On pourrait par exemple imaginer être une agence de publicité cherchant à obtenir un échantillon des meilleurs profils pouvant permettre de promouvoir un produit.

Voici donc nos attributs dérivés des attributs primitifs :

  • Visibilité (pour chaque tweet de chaque utilisateur) cf.fichier “SPOT”
  • Ratio entre nombre de friends et followers
  • nombre moyen de favourites obtenus de chaque tweet
  • fréquence de tweets publiés depuis la création du compte avec t0=01/01/2019

Approches non-supervisés

Notre première approche de ML fût une approche non-supervisée. Cette approche désigne la situation d'apprentissage automatique où les données ne sont pas étiquetées. Il s'agit donc de découvrir les structures sous-jacentes à ces données non étiquetées. Puisque les données ne sont pas étiquetées, il est impossible à l'algorithme de calculer de façon certaine un score de réussite.

Approches supervisés

Après la préparation des données, nous labélisons des données sur les quatre attributs dérivés en utilisant la méthode d’entropie(Shannon entropy method), ensuite nous comptons la fréquence de ‘Note’ et calculons son pourcentage cumulé(basé sur Principe de Pareto) Et puis nous extrayons un cinquième des données données comme le dataset pour l’approche supervisée. Nous choisissons la machine à vecteurs de support vue en cours comme classificateur. Après avoir formé le modèle, nous évaluons les résultats et améliorons les paramètres pour obtenir une plus grande précision.

comparer les résultats entre 2 approches

Enfin, nous utilisons le modèle paramétré pour prédire le reste des données et comparons les résultats entre 2 approches.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.