より大きなデータを扱うSVM(Support Vector Machine)
input/以下にあるファイルを、SVMが学習し、それらを分類する。 src/以下には、Haskellのファイルがあるが、それは、TFIDFのアルゴリズムを使ってSVMに適用するファイルを生成する。なお、入力のファイルは、複数のファイル。 src_one/以下には、同じくHaskellのファイルがあり、こちらは、入力ファイルが1つだけ。(1行で1ドキュメント)。 これらの処理を、rubyのスクリプトが全てを行ってくれる。 なお、SVMは、svm_lightのlinux64ビット版を使用している。
- ファイルが複数ある場合 訓練するファイルを、input/pos/以下とinput/neg/以下に置き、テストするファイルを、input/testPos/以下とinput/testNeg/以下に置く。
$ ruby convert_vector__and_classify.rb
を実行する
- ファイルが1つの場合 入力ファイルを、input/以下に置き、oneFile_convert_vector__and_classify.rbに、ファイル名を記述する。
$ ruby oneFile_convert_vector__and_classify.rb
を実行する。