Git Product home page Git Product logo

classificatore-bayesiano's Introduction

Classificatore bayesiano ingenuo di testi

Si tratta di un esempio ormai standard di analisi bayesiana di un corpus di testi, come per esempio descritta nel libro di Mitchell sul machine learning.

Il programma si aspetta in una cartella (che viene indicata nella variabile NOME_DIR, delle cartelle che corrispondono ciascuna a una classe di documenti e si aspetta in ciascuna cartella i documenti di quella classe.

Il programma analizza il corpus di documenti estraendo le parole e calcolando una misura classica basata sulla frequenza di apparizione delle parole in un singolo documento e nell'intero corpus per calcolare le probabilità che data una certa classe una parola compaia in qualche documento di quella classe.

A quel punto col teorema di Bayes si riesce a dare una predizione della classe dato un documento: l'ipotesi semplificativa che si usa nell'applicare il teorema di Bayes è che le parole in un documento compaiano in modo indipendente, il che è palesemente falso, ma semplifica il conto.

Per collaudare il programma ho usato il celebre corpus di 20.000 documenti 20_newsgroups che si trova per esempio sulla pagina web di Jason Rennie: http://qwone.com/~jason/20Newsgroups/

Il motore bayesiano e l'analizzatore lessicale sono condensati in una libreria nbayes.py che viene chiamata dal programma che ne fa il test sul corpus.

Enjoy, P

classificatore-bayesiano's People

Contributors

pcaressa avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.