Mengubah spam data set ( https://www.dropbox.com/s/yjiplngoa430rid/ ) yang digunakan untuk pembelajaran spam filtering ke dalam format yang dapat dibaca weka (arrf). Data set telah mengalami proses Lemmatization dan Removal of stop words.
Contoh bentuk data nya
Subject: posting
hi , ' m work phonetics project modern irish ' m hard source . anyone recommend book article english ? ' , specifically interest palatal ( slender ) consonant , work helpful too . thank ! laurel sutton ( sutton @ garnet . berkeley . edu
Baris ketiga berisi body. Yang akan diproses.