Git Product home page Git Product logo

emmamanna / weka_proiektua Goto Github PK

View Code? Open in Web Editor NEW
2.0 2.0 0.0 120.97 MB

Helburua datu multzo batean datu meatzaritza aplikatzea da. Datu multzoan Tweet desberdinak dauzkagu eta atazaren zeregina Tweet horiek gorroto sentimenduak dituzten Tweetak sailkatzea da. Sinpleagoa izateko, gorroto sentimenduak kutsu arrazista zein sexista dituzten Tweetak direla kontsideratuko da.

Java 89.40% CSS 10.60%

weka_proiektua's Introduction

WEKA Proiektua

Helburua datu multzo batean datu meatzaritza aplikatzea da. Datu multzoan Tweet desberdinak dauzkagu eta atazaren zeregina Tweet horiek gorroto sentimenduak dituzten Tweetak sailkatzea da. Sinpleagoa izateko, gorroto sentimenduak kutsu arrazista zein sexista dituzten Tweetak direla kontsideratuko da.

Sailkapena egiteko bi eredu iragarle desberdin erabiliko dira, Logistic Regression, baseline bezala erabilko dena, eta Multilayer Perceptron. Bi ereduen jarduera konparatuko da, eta lortutako emaitzen analisia garatuko da dokumentazioan.

Aplikazioaren paketeak

Aplikazioa hiru atal nasusitan banatuta dago.

Aurre-prozesamendua

  1. GetRaw: Datuen dokumentua ad-hoc ARFF formatura bihurtzen du programa honek. Honen bitartez,train zein test datuei formatu egokia ematen die, beharrezkoak ez diren atributuak kenduz etatestuari arazoak eman ditzaketen karaktereak kenduz.
  2. TransformRaw: Datu gordinak erabiltzaileak nahi duen espazio bektorialera aldatzeko eta espazio horren hiztegia lortzeko pentsatuta dago programa hau.
  3. MakeCompatible: Datu gordinak lortu eta gero eta atributu hautapena egin ondoren, test multzoa espazio honetara egokitzeaz arduratzen da.

Sailkatzailearen inferentzia

  1. FSS: Entrenamendu multzoko atributu egokienak hautatu behar dira, atributu gehiegi izatea kaltegarria izan daitekelako. Alde batetik, doikuntza eza edo underfitting eta bestetik bariantza altuak eta sesgoak estatistiketan eman daitezke. Hori dela eta, informazio galera txikiena emango lukeen atributuen hautapena gauzatzen da. Horretaz gain, test multzoa ere egokitzen da.
  2. GetBaselineModel: Logistic Regression erabiliz markatu da behe-bornea, kalitatea estimatzeko hiru ebaluazio metodo erabili dira: Ez-zintzoa, 10-fold cross validation eta 100 partiketa ezberdinekin egindako hold-out baten batazbesteko erantzunak.
  3. ParamOptimization: Parametro ekorketa teknika erabiliz, esleitutako algoritmoarentzako parametro optimoenak kalkulatzen eta gordetzen dira.
  4. GetModel: Kalkulatutako parametroekin esleitutako algoritmoaren modeloa eraikitzen da, eta honen kalitatearen ebaluazio bat egiten da. Kalitatea estimatzeko hiru ebaluazio metodo erabili dira: Ez-zintzoa, 10-fold cross validation eta 100 partiketa ezberdinekin egindako hold-out baten batazbesteko erantzunak.

Iragarpenak

1.Predictions: Test multzoa emanda, emandako eredu iragarleak egindako iragarpenak gordetzen ditu fitxategi batean. Gainera, garatutako interfaze grafikoan testu soila sartzeko aukera ere emanten da, test fitxategiaz aparte, instantzia bakarraren iragarpena egiteko.

Interfaze Grafikoaren erabilera

Erabiltzaileari erraztasun gehiago emateko helburuarekin interfaze grafiko bat garatu da ataza batzuk gauzatzeko. Interfazeak hiru erlaitz ditu:

  1. Preprocess: Datuak .csv formatuan emanda, horiek formateatzen eta egokitzen ditu.
  • Sartu beharreko fitxategiak: Train eta test multzo gordinak .csv formatuan.
  • Sartu beharreko parametroak: Atributu espazioaren zein errepresentazio nahi den, BoW/TF·IDF, eta datuen formatua, Sparse/NonSparse.
  1. FSS: Train eta test multzoen atributuen hautapena egiten da, informazio irabaziaren irizpidea erabiliz. Gainera, test multzoaren egokitzapena egiten da ere. OHARRA: Aldez aurretik hiztegia sortuta izan behar da exektutatu baino lehen, hau da, preprocess aldez aurretik eginda egon behar da.
  • Sartu beharreko fitxategiak: Train multzoa .arff formatuan eta atributu espazioa aplikatuta eta test multzoa .arff formatuan.
  • Sartu beharreko parametroak: Train multzoaren atributu espazioaren xehetasunak, BoW/TF·IDF eta Sparse/NonSparse alegia.
  1. Predictions: Iragarpenak egiten dira erlaitz honetan eta horretarako bi aukera ematen dira. Alde batetik, test multzoa emanda instantzia multzo baten iragarpenak egitea, eta bestetik testu soila sartuz Tweet horren sentimenduen iragarpena egitea.
  • Derrigorrez sartu beharreko fitxategiak: iragarpenak gordeko diren fitxategiaren helbideaeta eredu iragarlearen fitxategiaren helbidea.
  • Test multzoaren iragarpenak egiteko fitxategiak: Train multzoaren formatu berdina duen fitxategiaren helbidea.
  • Idatzitako testuaren iragarpenak egiteko fitxategiak: Atributu guztiak dituen entrenamendu multzoaren helbidea formatu egokian, eta erabili den formatua (BoW/TD·IDF, Sparse/NonSparse).

OHAR GARRANTZITSUA: Aplikazioak erlaitz bakoitzeko programak exekutatzen dituen bitartean programa blokeatuta geldituko da.

Esteka interesgarriak

Hasierako datu sorta, lortutako emaitzekin eta exekutagarriak hemen aurkitu daitezke.

Developed by

Website Website Website

weka_proiektua's People

Contributors

emmamanna avatar jongondra avatar xabidermit avatar juananpe avatar

Stargazers

 avatar  avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.