Helburua datu multzo batean datu meatzaritza aplikatzea da. Datu multzoan Tweet desberdinak dauzkagu eta atazaren zeregina Tweet horiek gorroto sentimenduak dituzten Tweetak sailkatzea da. Sinpleagoa izateko, gorroto sentimenduak kutsu arrazista zein sexista dituzten Tweetak direla kontsideratuko da.
Sailkapena egiteko bi eredu iragarle desberdin erabiliko dira, Logistic Regression, baseline bezala erabilko dena, eta Multilayer Perceptron. Bi ereduen jarduera konparatuko da, eta lortutako emaitzen analisia garatuko da dokumentazioan.
Aplikazioa hiru atal nasusitan banatuta dago.
- GetRaw: Datuen dokumentua ad-hoc ARFF formatura bihurtzen du programa honek. Honen bitartez,train zein test datuei formatu egokia ematen die, beharrezkoak ez diren atributuak kenduz etatestuari arazoak eman ditzaketen karaktereak kenduz.
- TransformRaw: Datu gordinak erabiltzaileak nahi duen espazio bektorialera aldatzeko eta espazio horren hiztegia lortzeko pentsatuta dago programa hau.
- MakeCompatible: Datu gordinak lortu eta gero eta atributu hautapena egin ondoren, test multzoa espazio honetara egokitzeaz arduratzen da.
- FSS: Entrenamendu multzoko atributu egokienak hautatu behar dira, atributu gehiegi izatea kaltegarria izan daitekelako. Alde batetik, doikuntza eza edo underfitting eta bestetik bariantza altuak eta sesgoak estatistiketan eman daitezke. Hori dela eta, informazio galera txikiena emango lukeen atributuen hautapena gauzatzen da. Horretaz gain, test multzoa ere egokitzen da.
- GetBaselineModel: Logistic Regression erabiliz markatu da behe-bornea, kalitatea estimatzeko hiru ebaluazio metodo erabili dira: Ez-zintzoa, 10-fold cross validation eta 100 partiketa ezberdinekin egindako hold-out baten batazbesteko erantzunak.
- ParamOptimization: Parametro ekorketa teknika erabiliz, esleitutako algoritmoarentzako parametro optimoenak kalkulatzen eta gordetzen dira.
- GetModel: Kalkulatutako parametroekin esleitutako algoritmoaren modeloa eraikitzen da, eta honen kalitatearen ebaluazio bat egiten da. Kalitatea estimatzeko hiru ebaluazio metodo erabili dira: Ez-zintzoa, 10-fold cross validation eta 100 partiketa ezberdinekin egindako hold-out baten batazbesteko erantzunak.
1.Predictions: Test multzoa emanda, emandako eredu iragarleak egindako iragarpenak gordetzen ditu fitxategi batean. Gainera, garatutako interfaze grafikoan testu soila sartzeko aukera ere emanten da, test fitxategiaz aparte, instantzia bakarraren iragarpena egiteko.
Erabiltzaileari erraztasun gehiago emateko helburuarekin interfaze grafiko bat garatu da ataza batzuk gauzatzeko. Interfazeak hiru erlaitz ditu:
- Preprocess: Datuak .csv formatuan emanda, horiek formateatzen eta egokitzen ditu.
- Sartu beharreko fitxategiak: Train eta test multzo gordinak .csv formatuan.
- Sartu beharreko parametroak: Atributu espazioaren zein errepresentazio nahi den, BoW/TF·IDF, eta datuen formatua, Sparse/NonSparse.
- FSS: Train eta test multzoen atributuen hautapena egiten da, informazio irabaziaren irizpidea erabiliz. Gainera, test multzoaren egokitzapena egiten da ere. OHARRA: Aldez aurretik hiztegia sortuta izan behar da exektutatu baino lehen, hau da, preprocess aldez aurretik eginda egon behar da.
- Sartu beharreko fitxategiak: Train multzoa .arff formatuan eta atributu espazioa aplikatuta eta test multzoa .arff formatuan.
- Sartu beharreko parametroak: Train multzoaren atributu espazioaren xehetasunak, BoW/TF·IDF eta Sparse/NonSparse alegia.
- Predictions: Iragarpenak egiten dira erlaitz honetan eta horretarako bi aukera ematen dira. Alde batetik, test multzoa emanda instantzia multzo baten iragarpenak egitea, eta bestetik testu soila sartuz Tweet horren sentimenduen iragarpena egitea.
- Derrigorrez sartu beharreko fitxategiak: iragarpenak gordeko diren fitxategiaren helbideaeta eredu iragarlearen fitxategiaren helbidea.
- Test multzoaren iragarpenak egiteko fitxategiak: Train multzoaren formatu berdina duen fitxategiaren helbidea.
- Idatzitako testuaren iragarpenak egiteko fitxategiak: Atributu guztiak dituen entrenamendu multzoaren helbidea formatu egokian, eta erabili den formatua (BoW/TD·IDF, Sparse/NonSparse).
OHAR GARRANTZITSUA: Aplikazioak erlaitz bakoitzeko programak exekutatzen dituen bitartean programa blokeatuta geldituko da.
Hasierako datu sorta, lortutako emaitzekin eta exekutagarriak hemen aurkitu daitezke.