$ poetry run python -m baselines.prepare_dataset \
ntcir_data_search_j \
datasets/ntcir_data_search_j
$ poetry run python -m pyserini.index.lucene \
--collection JsonCollection \
--input datasets/ntcir_data_search_j/docs \
--language ja \
--index indexes/ntcir_data_search_j \
--generator DefaultLuceneDocumentGenerator \
--threads 10 \
--storePositions --storeDocvectors --storeRaw
$ poetry run python -m pyserini.search.lucene \
--index indexes/ntcir_data_search_j \
--topics datasets/ntcir_data_search_j/test_topics.tsv \
--output results/ntcir_data_search_j_bm25.trec \
--language ja \
--bm25
$ poetry run ir_measures datasets/ntcir_data_search_j/test_qrels.txt results/ntcir_data_search_j_bm25.trec nDCG@10
$ poetry run python -m baselines.prepare_dataset \
miracl_j \
datasets/miracl_j
$ poetry run python -m pyserini.index.lucene \
--collection JsonCollection \
--input datasets/miracl_j/docs \
--language ja \
--index indexes/miracl_j \
--generator DefaultLuceneDocumentGenerator \
--threads 10 \
--storePositions --storeDocvectors --storeRaw
$ poetry run python -m pyserini.search.lucene \
--index indexes/miracl_j \
--topics datasets/miracl_j/test_topics.tsv \
--output results/miracl_j_bm25.trec \
--language ja \
--bm25
$ poetry run ir_measures datasets/miracl_j/test_qrels.txt results/miracl_j_bm25.trec nDCG@10
- NTCIR-1: 情報検索/用語抽出研究用テストコレクションから「テストコレクション利用申込書」にしたがって利用申込を行う
- 得られたZipファイルを解凍して
MLIR.TGZ
とTOPICS.TGZ
をoriginal_data/NTCIR-1/
以下などに展開しておく - 以下のファイルを読み込めることを
less
コマンドなどで確認しておく(違う場所に展開されている場合にはconfig.yaml
ファイルの設定を変更しても良い)
original_data/NTCIR-1/topics/topic0031-0083
original_data/NTCIR-1/mlir/rel2_ntc1-j1_0031-0083
original_data/NTCIR-1/mlir/ntc1-j1
$ poetry run python -m baselines.prepare_dataset \
ntcir_1_j \
datasets/ntcir_1_j
$ poetry run python -m pyserini.index.lucene \
--collection JsonCollection \
--input datasets/ntcir_1_j/docs \
--language ja \
--index indexes/ntcir_1_j \
--generator DefaultLuceneDocumentGenerator \
--threads 10 \
--storePositions --storeDocvectors --storeRaw
$ poetry run python -m pyserini.search.lucene \
--index indexes/ntcir_1_j \
--topics datasets/ntcir_1_j/test_topics.tsv \
--output results/ntcir_1_j_bm25.trec \
--language ja \
--bm25
$ poetry run ir_measures datasets/ntcir_1_j/test_qrels.txt results/ntcir_1_j_bm25.trec nDCG@10
NTCIR-2はNTCIR-1の文書コレクションを含むためNTCIR-1の利用申込も必要となる.
- NTCIR-1: 情報検索/用語抽出研究用テストコレクション,および,NTCIR-2: 情報検索用テストコレクションから「テストコレクション利用申込書」にしたがって利用申込を行う
- NTCIR-1のZipファイルを解凍して
MLIR.TGZ
をoriginal_data/NTCIR-1/
以下などに展開しておく. - NTCIR-2のZipファイルを解凍して
j-docs.tgz
,topics.tgz
,rels.tgz
をoriginal_data/NTCIR-2/
以下などに展開しておく. - 以下のファイルを読み込めることを
less
コマンドなどで確認しておく(違う場所に展開されている場合にはconfig.yaml
ファイルの設定を変更しても良い)
original_data/NTCIR-1/mlir/ntc1-j1
original_data/NTCIR-2/j-docs/ntc2-j1g
original_data/NTCIR-2/j-docs/ntc2-j1k
original_data/NTCIR-2/topics/topic-j0101-0149
original_data/NTCIR-2/rels/rel2_ntc2-j2_0101-0149
$ poetry run python -m baselines.prepare_dataset \
ntcir_2_j \
datasets/ntcir_2_j
$ poetry run python -m pyserini.index.lucene \
--collection JsonCollection \
--input datasets/ntcir_2_j/docs \
--language ja \
--index indexes/ntcir_2_j \
--generator DefaultLuceneDocumentGenerator \
--threads 10 \
--storePositions --storeDocvectors --storeRaw
$ poetry run python -m pyserini.search.lucene \
--index indexes/ntcir_2_j \
--topics datasets/ntcir_2_j/test_topics.tsv \
--output results/ntcir_2_j_bm25.trec \
--language ja \
--bm25
$ poetry run ir_measures datasets/ntcir_2_j/test_qrels.txt results/ntcir_2_j_bm25.trec nDCG@10