Google画像検索の結果を収集するコマンドラインツールです。
-
ダウンロード
GitHubの最新リリース からダウンロードできます。
-
デプロイ
# 配置ディレクトリで展開 DIR_PARENT={配置ディレクトリを指定} VERSION={対象のバージョンを指定} cd ${DIR_PARENT} tar xvfz ./collect-images_*.tar.gz rm -f ./collect-images_*.tar.gz # 最新版にシンボリックリンクを作成 ln -s ${DIR_PARENT}/collect-images_${VERSION} ${DIR_PARENT}/collect_images
-
サンプル設定の確認
cd ${DIR_PARENT}/collect_images # キーワードリスト # 検索したいキーワード群を改行区切りで列挙します。 # 1行に、半角スペース区切りでキーワードを並べると、AND検索されます。 cat config/keywords # 起動設定 cat config/project.properties
-
サンプル設定で実行
# 実行 cd ${DIR_PARENT}/collect_images/bin ./collect_images.sh # リターンコード # 0: 正常終了 # 3: ダウンロードエラーが含まれる場合 # 6: エラー終了 echo $? # 出力 # ・収集結果:data/COLLECT_RESULT_${キーワードリスト行番号} # キーワードリスト行番号毎に、ダウンロードしたファイルパスが記載されます。 # ・収集履歴:data/COLLECT_RESULT_HISTORY_${キーワードリスト行番号} # キーワードリスト行番号毎に、ダウンロード処理が 成功|スキップ|エラー終了 した結果が記載されます。 ls -l ../data # ・収集結果ファイル:data/query/${キーワードリスト行番号}/${収集結果ファイル行番号} # キーワードリスト行番号毎に、ダウンロードしたファイルへのエイリアスが作成されます。 # 複数のキーワードで同じファイルがヒットした場合、ファイルは1つだけダウンロードされ # 各キーワードのエイリアスから、ダウンロードしたファイルにアクセスできます。 ls -l ../data/query # ・ダウンロードファイル:data/images/${URI} # ダウンロードしたファイルは、imagesディレクトリ配下で一意に管理されます。 ls -l ../data/images